MonarchBase - Protein-coding gene

DPOGS202137
Transcript	DPOGS202137-TA	4791 bp
Protein	DPOGS202137-PA	1596 aa
Genomic position	DPSCF300193 - 32080-56508
RNAseq coverage	442x (Rank: top 28%)

Annotation
*Heliconius*	HMEL014625	71.16%
*Bombyx*	BGIBMGA001510-TA	67.41%
*Drosophila*	Crag-PA	55.95%
EBI UniRef50	UniRef50_Q7PWX7	48.35%	AGAP001102-PA n=1 Tax=Anopheles gambiae RepID=Q7PWX7_ANOGA
NCBI RefSeq	XP_322065.3	48.35%	AGAP001102-PA [Anopheles gambiae str. PEST]
NCBI nr blastp	gi\|118795299	48.35%	AGAP001102-PA [Anopheles gambiae str. PEST]
NCBI nr blastx	gi\|118795299	48.50%	AGAP001102-PA [Anopheles gambiae str. PEST]

Group
KEGG pathway
InterPro domain	[298-483] IPR001194	2.5e-64	DENN
	[552-626] IPR005112	8.9e-26	dDENN
	[161-269] IPR005113	3.4e-23	uDENN
Orthology group	MCL10740		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS202137-TA
ATGGATGAACGACGAGTTGCCGATTATTTTGTAGTAGCTGGCCTACCAGAGGTGCCAGAAATACTGGATGATTCTGATTCTGGACATTTAAAAGGCTATAGCACTAGAGCCCCTATAACTGATATCGGAGTAATGTTCCCGGGGCTGGGGGAGAAGGTGCCAGATGGTTATGAAATGCTGGAACTGACTCCTACAGGTCTGCCAGCTGATTTGAACCATGGCTCGATGAGGTCACCAGAGTGTTTCCTATGTATCAGACGAGGACGGGATAGACCTCCCCTCGTTGATATTGGTGTAATGTACGAGGGTAAGGAACGTCTGATGGCTGATGCGGAAATGGTCCTGCGTTCCGTCGAAGATAGAGTTGCTAACGTGAACAACTCGTCAGCCAAGACGTTTATAACGTACAGACGGGCGCATCCGAACGCGCCGTGTAACGCGCTCGTCGTGGTCGACGTTTGCGTCATAGTCGAGAGCAGAGGAGAGACGCCGCCTCACGCCTTCTGTATGATACCCAAGAATTTGAATAAAGGTCTAATGGGGAGTAACGTTTTCCTCTGTTACAAGAAGTCAATGAACCGCCCGCCGCTAATTGCTTATAAGCCAGAAGTATTGTTTAGATACCCTCAAGTAGACCGTCGTAGTCTAGCGTTTCCTACATCAGTACCATTATTCTGCCTTCCAATGGGAGCTACCTTGGAAGTGTGGCCGAACAACGCGTCATCACCCAAGCCAGTCTTCTCAACCTTTGTACTGACGGTCGCTGACGCTACCGACAAGGTGTACGGTTCCGCGGTGACGTTCTACGAGCGTTACACCAGCCCGCTGTCTGAGAGCCAGATGGACCAGCTGGGTTGGAGGGCCGGTGTCACTCACATGACACACTCGCTACACGCCAACAAGTCAATATGTTTACTATCCAGGTGGCCCTTCAGTGACACGTTCGAGAGGTGGCTGTTGTATATACTTGAGATGTCTTGGAGCAAGGAACCACTAAACATACCTATTGAAAGATACATAACACATTTATTGGAAGAAGTACCGTTCCCCGAGCCCAGGATATTATTACAGTTATCACCAACTAATCCTCACGACCGTGTGATAGTGACCCGGCGGGATGATCAACCTTTAGTGCGGAGCGGGGCCGGCTTCAGACAACTTCTGCTTAATTTAGGACCAGACAACTGTTTGTTACTCCTGGCGTTAGCTATCACAGAACAAAAAATACTTATACACTCTCTTAGGCCAGACACATTAACTGCAGTCTCCGAGGCAGTGTCTAGTTTCCTCTTCCCCTTCAAATGGCAATGTCCCTACATACCTCTATGTCCTTTGGGGCTGGCAGAAGTGCTACACGCTCCTCTGCCTTACTTGATAGGTGTTGACTCAAGGTTCTTTGATCTTTATGAACCACCGCCTGACGTGACATGCGTTGATCTAGATACTAATAATATTACGATATGCGAGTCACAACGGCATATATCATTGAAACTGTTACCTAAAAGACAAGCGAGGGTCCTGAGACAAACATTGGACCAGTTACTATCAAACATACGACCCGCGTCTCCGGTAAATTCATCTGGTGATAAACACAACGGCGAACCAACTACCAGTTTAGATAGAGATTTCCAGAAGAGAAAGAAAGAGCAAGCATTGGAGCTTAAAATCCAGGAAGCCTTTCTAAGGTTCATGGCGGTGACCTTTCAAGGTTATCGTTCATTTCTAATACCTATCACTAAAGCGCCGACCGTGGGTACAACAGACCCGCACGCTCTGTTCCATATGGACTCATTTTTGAGATCAAGGGACAAGACCCACCAGCGTTTCTTCGCTCTGACGATGCGGACACAGATGTTCACTCGTTTCATAGAAGAACGTTCGTTCGTATGCGACGCTGATCAAGCCTTGTCCTTCTTCGACGAATGCATAGAGAGAGTTGCTAGTGAGGAACCCTTACTAGGAATGGACGATAGTAATACGTCTGAGAGGACCGTGTTTGTACTACCTCCGGACCCGCCGGATACCGAACAGCAGTACACGTACAATAAGTTTATATTGGACGAGCAGCTGGTATCTCTATGTCATAGTACCCGCGGGTCATTGACCTGCGCCCCCGCCGCCGCCCTCGCCTCAGTAGAGTCGCTAGCTGACGCCTCACCCATGGCGAGACGAACAAAACAGGAGATAGCGGCCGCGCAACGTATTATGTATATATATATATATATATATATATATATAACTTTACGTTTTGCGTTCGAGCTACTGGAACGAGCTACTAAGCTGAGGGTACCCTGCGATGAGGTGTGTTACCGTGTCATGATGCAGCTGTGTGGTATCCACTCACTGCCGGTGCTGGCTGTGCAGCTATTGTTTCTGATGAAGCGGGCTGGTCTTCAACCTAATGCCCTTACATATGGTTACTACAATAGATGTGTGTTGGAAGCCGCCTGGCACAAGGATATGCCCAGCGGATCTCAACTCATGTGGAACAAAGTTCGTATAGCGATAATGGGAGTGACTTTGTTCCGTAAGGCGGGGGCTTTGAGAGCCAGTCGAGCGGCAGGAGCTGCGGGAAGTACGGGTACGTTGCCTCGTGTGCGTACGGTGGGCGGCGAGGGTGCAGATCTGACTGCATTGGCTCTCGCTGAACCGACGCGTAGCAGATGTAGCCTGGATTCGGCATGCGATTTGAACGCGTCGGTCAGCACCAATACGGCTTCGACGACGGCCTTCGAAGCCCTATACTGTAGAGGTAACATCGTCCGCGCCCCTGCCAGTCACCCGCGGGCTCATCAAATTTCATCGACCGCCGGTATACTCATTTCCGGCCTTCCATCAGATCCAGATCTTAGTTCTACAACCAGACCTAGAAGTAATTCGTTAGGCAGCGAAGAAGTCGAATCTTCTGTGTCTATAACGGAGAAGAGACAGACTATCCACGTAAGTCCCGACAGTCCATCCGATCTCAGGATACTGACACGATCAGAGAGCTTCGCTGGGGACGCACAGATAGTACAGAACCTACAAAGGCTATCGTTTTCTAGTAGCACATCAAATACGAAATCTCGATGTTCGAGGACGCTGAGCTTCCCCGAGGAACCCGAAAAAGAAACGGCGCTCGTCGACAAAGTCGAGAAAACTATCTCGTCACCTCTCAAGGTGTCCCCCCGCACCCCGGTGTTGGCGGATGACCCGCTGGGCGCTCTGTCCGTGGAGCCGAGTAGCCCCGCCCCCGCCCCTCCTACCACGGACGTGCCTCTACCACGACACGAGTTGAGCGTCAGCCCACGACTGTTCCAGAGGAGCAACTCTTTCACTGAGGAACCGGAAACAGTCGGGAAACTCCACAGAAGCGAGACGGCGCCAGCAACAGTGTCATCAAGCCTGGCCTCTATAGGAAATACGCTCAAAATCAGTTTTGGACGTTATTCACCAGCAAGACTGTCGTTGAGGAAGGATAATATGAACATCGGAAAGGCTATGATCGAGAACTATTTCAGTCCAACGAGCATAGCTGGGAAGAAATCGAACGAGCTCTTACAGAGCGGTCTCAGCAGCTTGAAATCAGCAGCTACGAGTATGGCTAAGAAATTCGATGAGATGAAAGAAGTGATATCGGCTAATTCGACTCCGGTCAAAGGCGCTATAGGCAACGCCACGAGCGCCCTCACTAACTTCAGAGGCGACGATGACTCGGGAGACGGCTCATCAGAGGTCAATCAGAATGAGTGGTCGGGCGGCGTGGGCTTCAGGCGCGCGTCCAGTGACGCGGAACTGGCGTGTTCTATGGAGAGAGGTTCTCTGGCTACACTTTTATCACATCTACCCGACAATCTGTATCCCACGCAGTATGATAATTCAAAGTCCGAGAACCCGTCGGTGGAGGTCCGTATGACGTCATGTTCTCAGTGTCACCAGTGCCTGGCGCTGTTGTACGATGAAGACATCATGGCGGGCTGGGCGGCCGACGACTCCAACCTCAACACGCGCTGCACGGCCTGCGGGCGACACACGGTGCCGCTGCTGTCTGTACAGGTGCGGTACACGGAGGTAATCGTACGAATGGATCAAACACAGGCGGAAACATTGACTGTGCCTTATTTAAATCCTTTAGTACTGAGAAAGGAATTTGAATCTATATTAGGAAGAGAAGGCGACGCTTGTTTGGCTGAACGCGAATTTGTGGAGTCGCATCCTATAGTATACTGGAATCTGGTGTGGTTCTTGGAGCGAGCCAATATAGATAATCATTTCCCTGACTTATTATGTCCGAATTTTTCCGTCAAATACCAGAGTTCGGATCCTTTGCCGGATGTGGACAAAATGACAGTCGGATGTCGCGTTGTTTGTTCGTGGGAGGGTGCTCGTGCGGCGGACTGCGAAGCCCCGTCCCTCCACCGGGCGTGGCGCGCGAGGAGGACTCAGCCGCGGTCGAGGCAACTTAGAGCTCTGCTACTGTCACATCACGACAGACCGACAGACTCTATCGTGGCGACCATATTGGACGGTCTCATGAGTAACGATCTATCAGACGCTGTAAGAAAATTGGCGGCGTGGAGAGAGTCGACGTGCGCTAACAAAAGATATCACTCGTATTACAGAGACATTCTATTCCTGGCAATGGCTGCACTCGGAGAGCAGAAGATCAATGTGACGGTGTTCCAGAGGGAATATACGCGAGCCATCGAACAGCTGGGAACAGAGGCTCGGCCGCAAGATCTGCCACCCTCACCTACAGCTGTCTGCTGTAGACATTACTTTAAGAGACTTACACTCGACGTAGACGACTAG

Protein sequence:

>DPOGS202137-PA
MDERRVADYFVVAGLPEVPEILDDSDSGHLKGYSTRAPITDIGVMFPGLGEKVPDGYEMLELTPTGLPADLNHGSMRSPECFLCIRRGRDRPPLVDIGVMYEGKERLMADAEMVLRSVEDRVANVNNSSAKTFITYRRAHPNAPCNALVVVDVCVIVESRGETPPHAFCMIPKNLNKGLMGSNVFLCYKKSMNRPPLIAYKPEVLFRYPQVDRRSLAFPTSVPLFCLPMGATLEVWPNNASSPKPVFSTFVLTVADATDKVYGSAVTFYERYTSPLSESQMDQLGWRAGVTHMTHSLHANKSICLLSRWPFSDTFERWLLYILEMSWSKEPLNIPIERYITHLLEEVPFPEPRILLQLSPTNPHDRVIVTRRDDQPLVRSGAGFRQLLLNLGPDNCLLLLALAITEQKILIHSLRPDTLTAVSEAVSSFLFPFKWQCPYIPLCPLGLAEVLHAPLPYLIGVDSRFFDLYEPPPDVTCVDLDTNNITICESQRHISLKLLPKRQARVLRQTLDQLLSNIRPASPVNSSGDKHNGEPTTSLDRDFQKRKKEQALELKIQEAFLRFMAVTFQGYRSFLIPITKAPTVGTTDPHALFHMDSFLRSRDKTHQRFFALTMRTQMFTRFIEERSFVCDADQALSFFDECIERVASEEPLLGMDDSNTSERTVFVLPPDPPDTEQQYTYNKFILDEQLVSLCHSTRGSLTCAPAAALASVESLADASPMARRTKQEIAAAQRIMYIYIYIYIYITLRFAFELLERATKLRVPCDEVCYRVMMQLCGIHSLPVLAVQLLFLMKRAGLQPNALTYGYYNRCVLEAAWHKDMPSGSQLMWNKVRIAIMGVTLFRKAGALRASRAAGAAGSTGTLPRVRTVGGEGADLTALALAEPTRSRCSLDSACDLNASVSTNTASTTAFEALYCRGNIVRAPASHPRAHQISSTAGILISGLPSDPDLSSTTRPRSNSLGSEEVESSVSITEKRQTIHVSPDSPSDLRILTRSESFAGDAQIVQNLQRLSFSSSTSNTKSRCSRTLSFPEEPEKETALVDKVEKTISSPLKVSPRTPVLADDPLGALSVEPSSPAPAPPTTDVPLPRHELSVSPRLFQRSNSFTEEPETVGKLHRSETAPATVSSSLASIGNTLKISFGRYSPARLSLRKDNMNIGKAMIENYFSPTSIAGKKSNELLQSGLSSLKSAATSMAKKFDEMKEVISANSTPVKGAIGNATSALTNFRGDDDSGDGSSEVNQNEWSGGVGFRRASSDAELACSMERGSLATLLSHLPDNLYPTQYDNSKSENPSVEVRMTSCSQCHQCLALLYDEDIMAGWAADDSNLNTRCTACGRHTVPLLSVQVRYTEVIVRMDQTQAETLTVPYLNPLVLRKEFESILGREGDACLAEREFVESHPIVYWNLVWFLERANIDNHFPDLLCPNFSVKYQSSDPLPDVDKMTVGCRVVCSWEGARAADCEAPSLHRAWRARRTQPRSRQLRALLLSHHDRPTDSIVATILDGLMSNDLSDAVRKLAAWRESTCANKRYHSYYRDILFLAMAALGEQKINVTVFQREYTRAIEQLGTEARPQDLPPSPTAVCCRHYFKRLTLDVDD-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: