MonarchBase - Protein-coding gene

DPOGS205602
Transcript	DPOGS205602-TA	2760 bp
Protein	DPOGS205602-PA	919 aa
Genomic position	DPSCF300167 - 102767-115621
RNAseq coverage	212x (Rank: top 46%)

Annotation
*Heliconius*	HMEL005005	83.75%
*Bombyx*	BGIBMGA007151-TA	80.14%
*Drosophila*	CG33080-PA	47.88%
EBI UniRef50	UniRef50_E2AQK9	51.98%	Uncharacterized family 31 glucosidase KIAA1161 n=7 Tax=Neoptera RepID=E2AQK9_CAMFO
NCBI RefSeq	XP_001607147.1	52.53%	PREDICTED: similar to ENSANGP00000011992 [Nasonia vitripennis]
NCBI nr blastp	gi\|332029283	52.27%	Uncharacterized family 31 glucosidase [Acromyrmex echinatior]
NCBI nr blastx	gi\|383856284	52.24%	PREDICTED: uncharacterized protein LOC100882776 [Megachile rotundata]

Group
Gene Ontology	GO:0004553	8.5e-132	hydrolase activity, hydrolyzing O-glycosyl compounds
	GO:0005975	8.5e-132	carbohydrate metabolic process
KEGG pathway	dme:Dmel_CG11909	4e-50
	K01187 (E3.2.1.20, malZ)	maps->	Starch and sucrose metabolism
			Galactose metabolism
InterPro domain	[331-913] IPR000322	8.5e-132	Glycoside hydrolase, family 31
	[488-866] IPR017853	3.3e-39	Glycoside hydrolase, superfamily
Orthology group	MCL15737		Insect specific

Nucleotide sequence:

>DPOGS205602-TA
ATGAGGATTCTGGAAACGTGCGGAACTCCTAACGATGTACTGACACCAGATCAAGCAGACAGAAATGATTTTCAAGTTAACCTTGACATCAATCGGTCAGTCACACCGGAGATAAAGATATTCGGTCCAGAGGATGATACGGCGGATCATAGGGATGAGGACTCCGCTCCGACTGAAAGAGAACATGATAGAGACGTTGAAGGAAAAAGTACAGTTGACATAAAAAGAGACAACACGAGTTCAGTCGCACACACCTTTAAATACCGGTCTCCTCTGTGGTTCGAGTCGGATTCTGACATCAGTAAGAGTGGCAGCAACTCAAGCGGGGACAGGGTCCAAGGTGGGGGGCTCGGCTGCGGAGACGAGAGCCTGGAATGCAGCTCAAACAGTTCAGACAGCGTCAACAACTTCCTAGATAAAAAGATTCCTGAACATCACCAGAGCTCAGTTTCGGTGTTCAGTGACGACAACAATGATGTTCATGATGATCAGGCTAAAGTACCGCTTAGATCGCCTCGCCGTAAGTCCACAGCCCCTCGACGGTTCAGATCTGAGTTCAGCATGGACGAAGATGAGTACTCCCCAAGCAATTCAGTCACGAGTGTGAACTCGCTCGCTAGTCTACTTAAGGAGAAATTACAAAGCATTCCTCAGAAAATAAGAAAAAAGCCTACAGATTACAAGCTGCGCGCGTTCGTCGGACTAATGTTTCTAGCCGTGGTGTTCTTTGTGGGGTTCGCCTACGTCCTCTACCACCGCCAGGCACTCACGACCGCCTACTTCGAAAGAGTGCAGTTCAATGAACCCAAACGACTTATCAGGGTTTACAATCAGGATGATGTGGAAATACTGAAAGCCAGATTGGGAGTGGATCTTCACGGGCAGCACAAATCCTTCCCGTGTCTACCGCAGCACCGCCGGCGAGGCTCTGAATGCCGAGAGTGGCTTCACGCGTTGCGACTTTACCTCACGAGTCTACCTCCAGAGCATGACAATACCACGTGCTACTCTGTCACCTGGCAAGCACTGTCAAATGACGTTACACCAAACGATTGCTTCGACTGGGGCGACACGAAAGTTAACTGGTTCGGAGCTGGGCAGTCTCTTAACCTAACCTGGCCACTCAACAGCGGTGCCATAGATTATACGCCTTTCATCACAGGCGACATGCAAAAATCTCAGTTCGGTAACGTTGTTACGAGATATTTGATTAACTCGAAAGGAGGAGCGATCACTGTGGATGAAGACACTCCGTTGCATATTTCTGTTAACAGAGGTAGAAAGGAAATATGTTTGAAAGCTAAGTACGACGACTTCGCATTCGCTAATAAAATTACAGAGTTCCCTGAACTGAAATACAATATATGCACTGCAAGGGATATAAAGTCCTTGCATTCTTCTATTCATAACCACAGAAGAGCCCCTCTGTGGGACGGCCTGAAGCCAGGTGACATTAAAACATTAGACTCTCTCATTTCTGAACCAGTTTGGCAAATTGCTCCTCGATTCAAACACGAATTACAAGACGAAACAATAGCCAAATATACAGAAGATGTTATAAGCCTAGGGTTTTTGAAACAAGGGCATGTATTGATTAACGAGTTTTGGCAGAATGAAATTGGTGACTTGACAGTCGATACGAGTCGCTTTGCAACATTAAATGTAACCGTAAACAAACTACACAGACGGGGCTTTAAGGTAGCTTTTACGATACAACCCTTTATAAGTACTGAAAGTAAAAACTTCGCTGAGACTGTACAAAAAAGATTGTTGATCAGCGAAAGAAACAGCGACAGAAGAATCCCAGCGTTGACAAGGTTTAAGTCTCTAGCGAGTGCGGGCGTGTTGGATATAACTAATAATAGATCTGTGCCTTGGATTATGGATAAACTACAGACTGTGATCTCCGCATATCATATAGACTCGTTTTATTTCGACCTCGGCACCGCTTACGACATGCCGCACTATTATCGGTGCGAACAAAAGTTGATAAATCCAGATCAATACAAGACAATATTTACCAAAACATTTGAGAAGGCTTTGAACATTATTGGCGTGTCCTCTGCCATACATCTCCCGCGTCCACCGATTTTCGTATCTTTGCCGCCGTTTGAATCTACTTGGGATGCTTTAAGACTGGTGATACCAACGATGTTGACGTACGGCATAAACGGTTTCCCGTTTACAATGCCGGGCGCAGTGGGGGGAGACATATACTGGCCTGGAAGCGAACAGTTCTTACCATCAGCTAAAGGAGCCGTAGAATCGATCGTGAACAGCACAACCCAGGAGAATGGTATCGAGTTACCGGAAAGAGAATTGTACATGAGGTGGCTGCAACTAGCAACCTTCTTACCTGTCATGAAGTTTACTCACCTGCCAAGCAAGTACAACGACGTCACTGTCCTAGAAATGGCTAAAAATCTAACTCTTCTACGACAAATGTATGTGACGCCTTTGTTATTAAAATACAAGCGTGAAGCTCTAGAGGAAGGCCTGCCGTTGGTGCGGCCTCTGTGGCTGGTGGCGGACGCTGACGTCACCCCCGCTCTGGACGAGTTCGTCATTGGAGACGAGATTGTAGTCGCGCCTGTCGTTCACCAAGGACACACCACGAGAGAAGTGTATTTGCCGGCTGGTCTGTGGCAGGACGGTATAGACGGTTCATTGAGGAAAGGCAATCGTTGGATGCACGACTACCGCGTGCCCGCTACCAAGGTCGCGTACTTCCTCAGGAAACCGGACGACTTAAGGTTTTAA

Protein sequence:

>DPOGS205602-PA
MRILETCGTPNDVLTPDQADRNDFQVNLDINRSVTPEIKIFGPEDDTADHRDEDSAPTEREHDRDVEGKSTVDIKRDNTSSVAHTFKYRSPLWFESDSDISKSGSNSSGDRVQGGGLGCGDESLECSSNSSDSVNNFLDKKIPEHHQSSVSVFSDDNNDVHDDQAKVPLRSPRRKSTAPRRFRSEFSMDEDEYSPSNSVTSVNSLASLLKEKLQSIPQKIRKKPTDYKLRAFVGLMFLAVVFFVGFAYVLYHRQALTTAYFERVQFNEPKRLIRVYNQDDVEILKARLGVDLHGQHKSFPCLPQHRRRGSECREWLHALRLYLTSLPPEHDNTTCYSVTWQALSNDVTPNDCFDWGDTKVNWFGAGQSLNLTWPLNSGAIDYTPFITGDMQKSQFGNVVTRYLINSKGGAITVDEDTPLHISVNRGRKEICLKAKYDDFAFANKITEFPELKYNICTARDIKSLHSSIHNHRRAPLWDGLKPGDIKTLDSLISEPVWQIAPRFKHELQDETIAKYTEDVISLGFLKQGHVLINEFWQNEIGDLTVDTSRFATLNVTVNKLHRRGFKVAFTIQPFISTESKNFAETVQKRLLISERNSDRRIPALTRFKSLASAGVLDITNNRSVPWIMDKLQTVISAYHIDSFYFDLGTAYDMPHYYRCEQKLINPDQYKTIFTKTFEKALNIIGVSSAIHLPRPPIFVSLPPFESTWDALRLVIPTMLTYGINGFPFTMPGAVGGDIYWPGSEQFLPSAKGAVESIVNSTTQENGIELPERELYMRWLQLATFLPVMKFTHLPSKYNDVTVLEMAKNLTLLRQMYVTPLLLKYKREALEEGLPLVRPLWLVADADVTPALDEFVIGDEIVVAPVVHQGHTTREVYLPAGLWQDGIDGSLRKGNRWMHDYRVPATKVAYFLRKPDDLRF-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: