MonarchBase - Protein-coding gene

DPOGS210919
Transcript	DPOGS210919-TA	3420 bp
Protein	DPOGS210919-PA	1139 aa
Genomic position	DPSCF300045 + 185463-193871
RNAseq coverage	394x (Rank: top 31%)

Annotation
*Heliconius*	HMEL015819	78.76%
*Bombyx*	BGIBMGA003069-TA	63.20%
*Drosophila*	row-PA	43.78%
EBI UniRef50	UniRef50_F5HMY6	45.30%	AGAP001141-PB n=3 Tax=cellular organisms RepID=F5HMY6_ANOGA
NCBI RefSeq	XP_973030.2	46.68%	PREDICTED: similar to CG8092 CG8092-PA [Tribolium castaneum]
NCBI nr blastp	gi\|347965382	45.30%	AGAP001141-PB [Anopheles gambiae str. PEST]
NCBI nr blastx	gi\|347965382	45.24%	AGAP001141-PB [Anopheles gambiae str. PEST]

Group
KEGG pathway
Orthology group	MCL16162		Insect specific

Nucleotide sequence:

>DPOGS210919-TA
ATGATGGAAATGCGAAAGGAAACGTCTCCTATACCTCCTCAAGCGGAGATCATAGAGGCCGATTTATATAAACGATCATATTTTGGACCTGATGTTCCAACTTTGGAGCTAGAATGTTGGGAGGAAGAGTTATCTGAGGCTCAACTGAAAGCCTATCAGACTGCCACTGAGGAGTATCAAAGTATTCAAAACAAACTTGATGTGATTGTAAAAGATACAGGAGGAGAGATTGTTTACAATGGTGATCAATTTACAGCATACCAATTGCTGGGCAAACAACCAGCTCTAAAGGATTTGGAGAGACAGAGTGCTGATATAATCAGATCTAGATCACGTTCCCTCTCCATATGTAAAGAAACTAAAGAAGTCAAAGGAAAAAGAGGTCGACCCAGAAAGAATCGCGAAGAAGATCGGGATTACTCCCCGTCATCAGACAGGACAAAGTCACCCGATCAAAGACATAAGAAGAAAAAGAAGGACAAGAGGAAGTATGATGAGAGGGATACGAAGACCAAGGATAAAACTTTGGCTCCATCCAATGTTCACAGCGTTGTAACAAACGTCCGGCCGTCCGAGGCGACCGCCATCGGTGGCTTACTCACCGGCAGCGCGACCAAAACAACGGCCATAGTCGACTTGACCAAGGAAGACGGCAACAAGAATGTGGCCGATTCCAGAGAGGTGTCGTTCAATAAACTGCAAGGCAAAACATTCCCGTCGTTGGTGGTGGTGGCCCGGCCGTACCTGCGTTCCAAGGACGCGGCCGTGCCCGCTGATCGCGCGACCCTCGATAGTAAAGTCAAAGCGGTTCTCATCCACACTCCCATGAAGTTCACCGAGTGGCTCATACAACAGGGTCTAGTGCGGTCAGAGCAGTGGTGCGCTCTACATCCCGGGAACAAACTCAAGCTAGGTATGTATTCTGACGTGTCTAAGTTCCCGTACTCGGGCGGCTACGTGTGGATATCCGAGTGCTGTCCTACTCGATTCGTCTCCGTGTTCTCGAGCTCTATCTTCGAAGGAGCCACGTTTCCGCCCAGTGTCCTCCTGAAGCTCATATACCACTGGGCGTGTCAGACGAACGTTCAGAACGTCGTCCAGTGGGTCAAAGTTGACAATCTATACGTCAAAGGTCTGTTTACTTGGTTGAGAGCGGTTTGCACGTCGGCTATACATCAGCACATGGGTCTGCTCGGCGGCCCGGGGAAGAAGGTTGAAGTTGGAGTCATATCTTTGGGTACCACCAGCCATGATGGCACACAGAGACAAGTCAAAGTTGAAGTGTTGGGTGTGCTGGATCCCGTCGAGAAATTGATTCGCCTTCGTGCGGTGGAGCCGTTGGCGGAGTACGAGAAGAATTATAAGAAGCGTTTCCAGAAAATTCTGGAGCCTCTCACCACTTGGGTCCATCCGTCGTCTATAATTCTGACGGATCTGACCGTGGACAAAGGCACGCTTGTGTCCATGGGCTTTAAGACGGTCCACCAGTCCTCGTCTCACTCCGACCAACCCATGAAGTACAGCAACGCCAATATCATGGAATATTTACGACGTATCGTGCCGAGAATGTTCCAGAACACTCTGTCGCTGCTGTCCAGGCAGATTATACAGCAGTTCCTCGACGAACTGGTGTGGAGAGAAAAGTTCGGTGTGTCTCCCGGGCAGGCGTTCGACAACATAGTGTCCCACATATCAGAGCAAACAAAATTGGACGCTAAGGACCCCATCACTATACGGCTCTACAAAATCGCTTCTAATCCATTCAAAAACTGGAAGTACCCCAGCAAGAAAAAGGATAGATCGGAAGAATCTTTAGAACCGGAAGTGAGAAGCAAGCGCGGTAGAAAGAAGAAAGAGCGCTCGCCCTCACCGCCGCCTAAGAAGAAGAGAAGTAAGACTTATATAGAAGACGAGGACGACGAAGAGATTCCACTGGCGCTGCGGCGGTCGAAAGTCAAGCAAGAGAAGAATAAAGACTCCGACGGCCGGCGGCGCAAGGCGCGGGCTTACGTCGACGACGACCTGGACGACGTGCCGCTGAAGAACATCAAGAAGGAGGTCAAACACGACGACACCGTCTCCCTCGAGAGGTTCTACTACGGCAGAACGACCGAGGGCCTCGCCGAGAACATCGCCATAGCCGTGCAGTGTCCGGCGTGTCAGGTAGAGTTCAACGAGTCGATGTCGCTGTGCGTTCACCTGTGCGGGCACGTGTCGCGGCGCGCGGCCGGCGTGCTGTGCGTGTTCTGTCAGAGCATGTTCGACAGTGAAGCAGAGCTGAGCGAGCACCTCAAGTGTTCTCACCCCGTGGACACCAAGTCACCCGAACTCTTCACCTACGCCTGCCTCATATGTGAGGTACGTTTCGCGGCGGTGCTGACCCTGGCGGCTCACATGCAGAAGGCCCACTGTCCGCGCGAGCTGCCCTACAGCTGCGGCTCGTGTCCCTACCGCGCCTCCGCCCACCGCTCACTGCTGGAACACGTCATGAACAAACATCGCCGGTCCGACAAGCTAGTCTGTCCGCACTGTCTCAAGATGATTCCAGTGTACGCCGACGGATGTGAACTCACAGCCAACGTGCTCCTCTACATGGACCATCTCAAGCAACACCAGGACAAGGAGCTGGAGATCAAATGCACGAGATGCGTGCTGAGATTCGTACATCTCGGTCAACTGAAAGAGCATCAGATTCGCGACCACAACCCGTGCGAGGAGGTCCTGCCTCTGTGTTCTACTGAGCACTTGATTAACCTGCCCAAGAACAAAGCCCGCCCTCCCATCAAGGACGTCGCGTGTCACGCCATCAGCGACACGTATGAAGGTGTCACGTTGTTCCTACAGGACGGTCTTCTGTGTCGCGAGTGTGACACGCCGCTTGACAGTGACAAACACTTCCTCGGTCGCACGTCGTGCAGCAAGTGTCCGTATGCTACATCATGTTACCGAGCGATGTTGAGACACAGTGGATACTGCGCCGGCCCACATTCACTAGAGGCCGCCCCTAGACCCGCGCCCATGCTCTACTGCGTATGTGAATACTCTACAGACATAGGCACGGACATGCTGTCCCATCTTCTCGCTACACAGCACACAAGCGCCTACTTAAGTGAGGAACTTGCACGAGCCAACACTGTCAGGGAGGAACCAAAACCAGCTGATGAAGTGGAGCCTCTTGTGGAGAACATGCCAGCTATCCCAGATTACGCTCCTCCATCGGTCATCAACACTCAGCTGTCTCTAGATGATCTTGCTCCCCCTTCAGTTTTACAACCTGATCAGCATGATCAAGAACTCCTGAAGGACGCATATGACCGCCCCCTGGCAACACCAAGACATGAGGAACCTCACTACACTCTCGGAGACTTTGAACCATTGCCTCAAGAGCCACCTCCCCAACCAGACTTTGAACAACTGTAA

Protein sequence:

>DPOGS210919-PA
MMEMRKETSPIPPQAEIIEADLYKRSYFGPDVPTLELECWEEELSEAQLKAYQTATEEYQSIQNKLDVIVKDTGGEIVYNGDQFTAYQLLGKQPALKDLERQSADIIRSRSRSLSICKETKEVKGKRGRPRKNREEDRDYSPSSDRTKSPDQRHKKKKKDKRKYDERDTKTKDKTLAPSNVHSVVTNVRPSEATAIGGLLTGSATKTTAIVDLTKEDGNKNVADSREVSFNKLQGKTFPSLVVVARPYLRSKDAAVPADRATLDSKVKAVLIHTPMKFTEWLIQQGLVRSEQWCALHPGNKLKLGMYSDVSKFPYSGGYVWISECCPTRFVSVFSSSIFEGATFPPSVLLKLIYHWACQTNVQNVVQWVKVDNLYVKGLFTWLRAVCTSAIHQHMGLLGGPGKKVEVGVISLGTTSHDGTQRQVKVEVLGVLDPVEKLIRLRAVEPLAEYEKNYKKRFQKILEPLTTWVHPSSIILTDLTVDKGTLVSMGFKTVHQSSSHSDQPMKYSNANIMEYLRRIVPRMFQNTLSLLSRQIIQQFLDELVWREKFGVSPGQAFDNIVSHISEQTKLDAKDPITIRLYKIASNPFKNWKYPSKKKDRSEESLEPEVRSKRGRKKKERSPSPPPKKKRSKTYIEDEDDEEIPLALRRSKVKQEKNKDSDGRRRKARAYVDDDLDDVPLKNIKKEVKHDDTVSLERFYYGRTTEGLAENIAIAVQCPACQVEFNESMSLCVHLCGHVSRRAAGVLCVFCQSMFDSEAELSEHLKCSHPVDTKSPELFTYACLICEVRFAAVLTLAAHMQKAHCPRELPYSCGSCPYRASAHRSLLEHVMNKHRRSDKLVCPHCLKMIPVYADGCELTANVLLYMDHLKQHQDKELEIKCTRCVLRFVHLGQLKEHQIRDHNPCEEVLPLCSTEHLINLPKNKARPPIKDVACHAISDTYEGVTLFLQDGLLCRECDTPLDSDKHFLGRTSCSKCPYATSCYRAMLRHSGYCAGPHSLEAAPRPAPMLYCVCEYSTDIGTDMLSHLLATQHTSAYLSEELARANTVREEPKPADEVEPLVENMPAIPDYAPPSVINTQLSLDDLAPPSVLQPDQHDQELLKDAYDRPLATPRHEEPHYTLGDFEPLPQEPPPQPDFEQL-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: