MonarchBase - Protein-coding gene

DPOGS200895
Transcript	DPOGS200895-TA	3492 bp
Protein	DPOGS200895-PA	1163 aa
Genomic position	DPSCF300066 - 321201-342014
RNAseq coverage	797x (Rank: top 16%)

Annotation
*Heliconius*	HMEL012734	7e-97	65.76%
*Bombyx*	BGIBMGA000546-TA	3e-37	56.82%
*Drosophila*	CG7546-PD	3e-16	45.95%
EBI UniRef50	UniRef50_E0VZR7	2e-21	63.16%	Putative uncharacterized protein n=1 Tax=Pediculus humanus corporis RepID=E0VZR7_PEDHC
NCBI RefSeq	XP_001650192.1	2e-22	58.67%	hypothetical protein AaeL_AAEL014998 [Aedes aegypti]
NCBI nr blastp	gi\|157108363	3e-21	58.67%	hypothetical protein AaeL_AAEL014998 [Aedes aegypti]
NCBI nr blastx	gi\|307173510	2e-23	22.86%	Large proline-rich protein BAT3 [Camponotus floridanus]

Group
Gene Ontology	GO:0005515	2.9e-16	protein binding
KEGG pathway	cdu:CD36_24690	7e-08
	K04523 (UBQLN, DSK2)	maps->	Protein processing in endoplasmic reticulum
InterPro domain	[7-72] IPR000626	2.9e-16	Ubiquitin
	[235-344] IPR021925	3.4e-08	Protein of unknown function DUF3538
Orthology group	MCL23629		Lepidoptera specific

Nucleotide sequence:

>DPOGS200895-TA
ATGATTGAATTCACTATAAAAACGCTAGATTCCCGGGATCACCCGTTTTCCGTGGACGATGAGATTACAGTGGCACAGCTCAAAGAGAAAGTGCAGGAGCAGATGGGGATTGAAATTGGACTTCAGCGCCTCATCTTTTGTGGCAGAGTTCTTGCGGATGAAAAGAAACTAGCTGACTATGATGTCCATGGGAAGGTGATTCACATGGTGCAAAGGGCACCGCCATGCGTCGAAGAGCGGGAGACCTTGAGGGAGCGAGAGCGGGAGCGCGAGCGCGAGAGGGAACGTGAAAGGATGAACTCATTCACCAATCTAAATACGGATCCCATTAACTATGGAGCTGTTCATTTTAATCACATTACACAACAGCAGATAAGACGCCTTATGGCTTTGGCATCGACTGCCCATGGTATTGAGATCGAAGAGCCACCGGGCTCCGCCCTGTCTCCTACTGGGACGCGCTTGGACTTCCTCCGCCGTCTCATCATTGAAATACGATCAACCCTCGATGCTATCATACAAAATGAAAGTAATGAACCACGTAGTTTTTCAACTGAAGATCCATTGGAACCCAGAACAAGCCAGGGAGAATCTAGTTCGGTGCCAGATGAGCTCGATCAAGGCACCGGAGGTACCCGCGAGGGTCGCGGACGCAGGATTCGTCAGGCTCAGGCTGCTTACCACACGCCTCCTATTGAGTTCGGCCAGCTCGTAGCTGAGCTCCACGAGTTGCATAATGAGTTTACTCCCTTCAGGGAGGCATACATCATGACGCTAAATGAAGCCAGCGATTCGAATGTCCAGCTGACAGAGGACGTACTCCAACGTCGCCAGCGCACCGCTGATCTGGCCGCAGAGTTGTACCATAGCTTCTCTCACGCCTACCATGTCGTGAGCGATATTGGACTCATGTTGGCTCATCGCAACTCTCGTCTCATGTCGGAGGCTCTGATGCGCCACCCTTTGCCATTGCAGGCGCACATTAATGTTGTGCAAACACCCGCTAACCGTCGTCAGACAAACGCGTCTTCATCGACCGGCGCGGGTCCGTCCACCGAGAGCCCGCAACCCAGCAGTTCACAAGCCGGTAACCCGACCGTCAATATAGATATACAGCCAGATCCTATTACTTACCAAGTAGAAATAGAAACCAGGGTTCCGCTTGAAGCCACGGCTGAAAACCTGAACGATCAAATGCCGAGCCAGGAGGGTCAGGATCTGGGCGGTCGCCCACAATCTATGAACGATTTTGACAGTCTGTTTAGGGGATTGGGACAACCTGGCGGTATTAGGGGAGTTGAAGTACTTATGAGTATGGAAGAGATCACTCCGGTTAATGGTACTTTCACTGCTGCAATTCCAACTCTGAACTTGCAACCGGATGTGGGAGTTACCGGAGGTAACCAACCTCTGTACGGATCACAAATATATCTAGCTCAAATGCCGTGGGGTGCTGCTAATCAGGCAGCTCCGAGCGCAGATCTGTTGCAGAACATCGTGTCCTCAGTTATCAGACAGGGTCTCGTTGCTGGGATGGAGGGAGCTATGACCGCCCACGTGCAACAGGCCCATGTGCCAGGTCAAGGTCTCGGTGAAGGTCAGGTTCCAATGCAGGCGGACAACGCTCCGCCCCAACAACCCGACCCAAACCAGACACCAGCTCAAGAACAATCTCAAGAGAATCAGACCAATACAGAACAAAATACAAATCCTAGTACGCGACGCGTTCCAAGGCTGTTCACCCCTCGTCGTCAAGGAACGAACACAGCTCGCGGTCAGACGGTGTCCTTGAACAATTTGGTATACGACAGATTCCTTCAATGCGACAGTCATCACGCCCGTCGTCAGCTAACACGCCGCCGTGAGGAGACGTCGTTGGCCGGCGGACCTCTGCTTCGTGACGATAACAGTCAACGCGTGCAGAATAACGTGGAGACCTTGTACGAACGTTTCGACAGGAGCGCCATTAATGAAGAGTCTCTCATGATAGCTACTATGGTCACTCTGCGTGAGGCCATATCGTTCACCGGGGGTCGAACTCTGGTCCCGGACGAATTGCAACCACTGCGCTATCGTCTCCAAGTGTACATGCGCGAACTCATGCAGGGCGAGTACGAGGTTGGCACGCAAAGCCACCTCGCTGATCTGATATTCGAGCGCCACGCCGAATTTATTAACCGCGTTACTGCTATAACGCCGACTCGTCCCAACGTGGATGTGACTGCTTCAATGAAGGCTGTGTTCCTACGTTTCCTGAATGAGGCTATGACGGTGCTGGATATTGAGAACATTGAAGTATTTTCTCGTCGCTTCCGGATCGTGTACCCGAGGCTTTTCTACGAACTATGCGGAGTCATCTCTTATTGTTGCTTGGAGGGTGTTGAGGGTCTTAAGAAGATATACCGCTCTTTCTTGACGGAATTGCTGCAGAATGTTGGAGAACCAGTACGTGATCTTCTCTATAGCCTGTCGATGGAGAACTTGAATGCTGCGATCTGCCGCATTGAACATAACAGGCTCCACTTCGCACAGTTCATACGTCGCAAGGAACAGCAGCCTTCCACATCGACCGCGATCGTAATGATGAATGAGCCGTGTACTACAATGGACGTGTCACCTCGGCCCGAGCCGGTGCCGATGTCTCCACGTGATGATAATGCTGATTCAGAGGAATCAGATGCACCAGTGGCCGGCTGCGACCGCAAGGAGGAATCCTCGTCGGACATGTCGTCCAAAGACGAATCTTCGTCTGATAATTCACCGAAGGGCGAGACGTCACGCGATCAGCACAGAAGGGACGAGTCCAGGAGACATCATTCATCGAGAGTCGATTCACTCTCGCCAGTTTTGTTTGGCGCAACACGGAAGCCGTGGACATTAAAGAATTCAAACAAGAAGACGCCTTCAAAATTCCCCAAGACGTCTACGCCGAGGGAGCAACTCGCTCAGCCGACGACACCGCTGCAGGGTGCACCTAATGTCACACTCGTCAGATATGGAGCACCCAGAGTTACGAGTGGTTTACGTCACCGCAAGGTGAATCGAGCTAACAAATCAGGCTCTGGTTCTAAGCCAGATGCCTCTGGATTATTCGTACCACCTGAGTCGATAGCGCAACATTGGGGCGAAGAATGGGTGCCAACTTTCACCCGTGATGTACAGGAGCAGGAACATCGTGATACCGCTGAGCCCTACAGTGATGCCTACCTTTCGGGCATGCCTCCGAAGAAACGTAGATGCGTGCGACAGTCGCGACCTCCTACGACACTGAACGCGTTCATCGCTGAGAGCGTGAACGAGGTATCGTCTCTGGGCAGCGTCCAGGGCGAGGAGCTGAGGGCAGCGTTTCGCGAGCACATGAGATGCATCGCCCGCGAGCGCGCTGCCGTCTCCGAGGATTACGAGCCGCGCCGGTTCGTCGCCACTGCACGCTTCCTCAACCAGACCAGGACGAGTACGCGGAAGTCGCCAGAACGCAGCAGCTCTAATTAA

Protein sequence:

>DPOGS200895-PA
MIEFTIKTLDSRDHPFSVDDEITVAQLKEKVQEQMGIEIGLQRLIFCGRVLADEKKLADYDVHGKVIHMVQRAPPCVEERETLRERERERERERERERMNSFTNLNTDPINYGAVHFNHITQQQIRRLMALASTAHGIEIEEPPGSALSPTGTRLDFLRRLIIEIRSTLDAIIQNESNEPRSFSTEDPLEPRTSQGESSSVPDELDQGTGGTREGRGRRIRQAQAAYHTPPIEFGQLVAELHELHNEFTPFREAYIMTLNEASDSNVQLTEDVLQRRQRTADLAAELYHSFSHAYHVVSDIGLMLAHRNSRLMSEALMRHPLPLQAHINVVQTPANRRQTNASSSTGAGPSTESPQPSSSQAGNPTVNIDIQPDPITYQVEIETRVPLEATAENLNDQMPSQEGQDLGGRPQSMNDFDSLFRGLGQPGGIRGVEVLMSMEEITPVNGTFTAAIPTLNLQPDVGVTGGNQPLYGSQIYLAQMPWGAANQAAPSADLLQNIVSSVIRQGLVAGMEGAMTAHVQQAHVPGQGLGEGQVPMQADNAPPQQPDPNQTPAQEQSQENQTNTEQNTNPSTRRVPRLFTPRRQGTNTARGQTVSLNNLVYDRFLQCDSHHARRQLTRRREETSLAGGPLLRDDNSQRVQNNVETLYERFDRSAINEESLMIATMVTLREAISFTGGRTLVPDELQPLRYRLQVYMRELMQGEYEVGTQSHLADLIFERHAEFINRVTAITPTRPNVDVTASMKAVFLRFLNEAMTVLDIENIEVFSRRFRIVYPRLFYELCGVISYCCLEGVEGLKKIYRSFLTELLQNVGEPVRDLLYSLSMENLNAAICRIEHNRLHFAQFIRRKEQQPSTSTAIVMMNEPCTTMDVSPRPEPVPMSPRDDNADSEESDAPVAGCDRKEESSSDMSSKDESSSDNSPKGETSRDQHRRDESRRHHSSRVDSLSPVLFGATRKPWTLKNSNKKTPSKFPKTSTPREQLAQPTTPLQGAPNVTLVRYGAPRVTSGLRHRKVNRANKSGSGSKPDASGLFVPPESIAQHWGEEWVPTFTRDVQEQEHRDTAEPYSDAYLSGMPPKKRRCVRQSRPPTTLNAFIAESVNEVSSLGSVQGEELRAAFREHMRCIARERAAVSEDYEPRRFVATARFLNQTRTSTRKSPERSSSN-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: