MonarchBase - Protein-coding gene

DPOGS212394
Transcript	DPOGS212394-TA	3288 bp
Protein	DPOGS212394-PA	1095 aa
Genomic position	DPSCF300019 + 1049799-1060768
RNAseq coverage	569x (Rank: top 22%)

Annotation
*Heliconius*	HMEL006624	0.0	70.83%
*Bombyx*	BGIBMGA012077-TA	0.0	57.90%
*Drosophila*	CG14476-PE	5e-63	26.50%
EBI UniRef50	UniRef50_E0V9V3	0.0	47.73%	Alpha glucosidase, putative n=5 Tax=Arthropoda RepID=E0V9V3_PEDHC
NCBI RefSeq	XP_969694.1	0.0	48.20%	PREDICTED: similar to acid alpha-glucosidase [Tribolium castaneum]
NCBI nr blastp	gi\|91079350	0.0	48.20%	PREDICTED: similar to acid alpha-glucosidase [Tribolium castaneum]
NCBI nr blastx	gi\|91079350	0.0	48.20%	PREDICTED: similar to acid alpha-glucosidase [Tribolium castaneum]

Group
Gene Ontology	GO:0004553	3e-151	hydrolase activity, hydrolyzing O-glycosyl compounds
	GO:0005975	3e-151	carbohydrate metabolic process
	GO:0030246	2.6e-36	carbohydrate binding
	GO:0003824	2.6e-36	catalytic activity
	GO:0008152	3.1e-07	metabolic process
KEGG pathway	tca:658192	0.0
	K12316 (GAA)	maps->	Starch and sucrose metabolism
			Galactose metabolism
			Lysosome
InterPro domain	[222-1094] IPR000322	0	Glycoside hydrolase, family 31
	[505-878] IPR017853	4.5e-91	Glycoside hydrolase, superfamily
	[264-504] IPR011013	2.6e-36	Glycoside hydrolase-type carbohydrate-binding
	[240-289] IPR000519	1.4e-10	P-type trefoil
	[723-789] IPR013785	3.1e-07	Aldolase-type TIM barrel
Orthology group	MCL10955		Patchy

Nucleotide sequence:

>DPOGS212394-TA
ATGCCTAAGATACCTTACAAACCTGAAAAGGGTCGTGAAGAAGACGAGGATTATGAAATTGTATCTTTTGAAGACTTTTGCGATAAGCCTCCAGGAACGAGTACCGATTTATTGACTTTAAATGACAATATTAACTATCGACTTCATTATGAAACCGATAAGGCTTCAAATTTTCCTGAGGCCGGTGAACCATCAACTCGAGATATTGGGATGCACACGGAAACTTCTTTAAACGGTCCCAAAAATGCGTCGTACAAAAGAAAATTGTCCTTTGCACCGTTCGGCAGAACCGATAAAAATAGCCGCGGTCCATTATTCAGTGGAGTTATACCGAAACCTAGAAATGAAGGGGAATCTAGGGAACACAGATACGAACGTTTCTCTCCGCGTGGCGGTTGGCTAGCGCGTACCTGGGAACAGCTAGGGAATTTGTTACCTGGTATGCTAGCTACGGCGTTGTTGAGCGCGTTATGCGTGGGCGCATGGTGGGCGGTGGGCGGAGCTCTAAGCGGCAGCTGGGGAGATGATCATTACAGACGTCTCTACGAACGCGCTCATCCAGATGACATAAAAAAACCACTGTCGCCTGTAATTGAGAAGATTATTCCGACTGAGAACCGCTACCACGACCACAACAATTTGTCAACCAAGAACAAGAACATCACAGAAGCGTCTTATAAGAAGGATAATAAGAAAAGTGACTACGGCGATTTGGATCATCAGTGTGGTGATGTATCAGACAGCATGAGGTTCGACTGTCATCCGCAGGGGGGCGCCAGTGAGGAAGCTTGTACCAAACGGGGTTGTTGTTGGGGGGCGACCGCTGTGCAGGGTGCTCCATACTGCTACTACCCTAAACACTACCCGAGCTACCGCTTCATGAACAGCACAGAGAACAAGCACAGCATGACCGTGTACTACGCTCACGGTCTGGATACAGGGTACCCTGGACAGTGGGGAACTGTCATGGTGACCTTCAACTACCTGGCCGATGATGTCCTGCAGATTAAGATGACCGACGCTAACAACAAGAGGTTCGAACCCCCGTACCCCGAGGTGCCGGTGGTGTCGGGGCGGGTCACCAGTCTCCAGTACCGAGTGCTGGTGGACAGTGCCGCCGTCGGCTTCAAGGTCATCAGGACTGAGGACAACGTCACCATAGTCGACACTCAGAACGTGGGTGGTTTGATATTATCGGAGAAATTCCTTCAGTTATCGTCAGTACTGCCCACGGACCACGTGTACGGCTTGGGAGAAAAACAGGCGCCGCTCCTGAACAACTTCAATTGGAACACCTTCACGCTGTTCAACAGCGACATGCCGCCCATAGAGAATAAAAGTCTCTATGGGACTCATCCTTTTTATCTGGCCTTGGAGAGAAATGGGAAGAGTCATGGGATGCTCCTGTTGAATTCGAATGCTATGGACATAGTCCTCCAACCGTCTCCGGCTATAACGTACCGCGCCGTGGGCGGCGTCCTAGACTTCCTGGTGATGATGGGTCCTTCGCCCTCGCAAGTTGTATCTCAACTCACGAGCCTTATAGGCAGACCCTTCATGCCGCCGTACTGGGCGCTCGGATTCCATCTGTGCAAATACGACTACGGCAGCCTCAACACCACCCGCCAGGTCATGCAGAGGAACATCGACGCCGGGATACCGTTGGACGCCCAGTGGAATGACCTGGACTACATGAGCACTGCGAACGACTTCACGTACGACAAGAAGAAGTATGAAGGCCTGCCGCAGTTCGTTGACGACTTGCATCAGAAAGGAATGCACTACGTAGTGCTCGTCGATCCCGGGGTGAGTGCGTCCGAAACTCCGGGCAGCTACCCGCCTTTCGACCGGGGATTGGAAATGGACGTGTTCGTGAAGAACTCCACCGACCAGCCCTTCGTGGGGAAGGTCTGGAATCCAAAGTCGACGGTGTGGCCGGACTTCACCAACCCCAACGCGTCGGTTTACTGGAAGGAAATGTTGGAGGAGTTTTATAAGCTGGTTAAATTCGACGGAGTGTGGATCGATATGAACGAGCCGTCCAACTTCCTGTCAGGGTCTATGTACGGTGAATGTGACCCCGAGGACCTTCCCTATACCCCCGCGGAGACTCCTCAGGAGGGTCTCAAGTATAAGACCCTGTGTATGGACGCCAAGCATTACGCGGGGAAGCATTACGACGTGCACAACGTCTACGCCATGGCGGAGGCCGTGGTCACATTCAATGCTATGCGTGAGGTCCGTGGTAAGCGTCCGTTGGTGTTGTCTCGAGCGTCCAGTCCCGGCCTGGGAAGAGTTGCTGCCCACTGGAGTGGAGACGTCTACAGCAAATGGCACGACCTCAAGATGTCTATACCCGCCCTGCTGAGTTTTAGCTTGTTCGGCGTGCCACTGATGGGTTCCGACATCTGTGGCTTCATCGGCGATACTTCTGAAGAGCTTTGCAAGAGATGGATGCAGCTTGGAGCTTTCTATCCATTCTCACGGAACCATAATTCCAATGAAGCCAAGCCCCAGGATCCCGTGGCCATGGGAGCGGGCGTGGTGCGAGCGAGTAGAAATGCGCTCCGCACGAGGTACCGCATGCTGCCATACTATTACACACTCTTCTGGAAGGCCCACGTGGCGGGGGAAACGGTCGCCAGGCCGCTGTTCATGGAGTTCCCATCTCTGAGTAAAGTCCACTCAATCGATGAGCAGTTCATGTTGGGTCCGCACGTGTTGGTGAGCCCTATACTCATCCCCGGTAACTCGACCACGGCGTTGTTCCCCTCCACCACTTGGTACAGCTTCCTGGATGGAAGATACCTGGCCAGAGACCGATGGATGGAAATCGGAGAAGGGGATATCATATCCATCAGGGCGGGTGCGATCCTTCCACTCCAAGAGCCGCCGTCCAAGGGACCCGTGAACACGGTCGTGAGCCGCAGCGGCCCTCTCCAGCTGTTGGTGGTTCCCGATAAAGAAGGAGCGGCTCACGGGCAGCTCTACTGGGACGACGGAGACAGCATCAATACCTATGAAGAGAAAAAGTATAGCCACATCGATTTCATTGTGAAGAACAATGAGCTACAGAATATAGTACAGTGGTGGGGATATGGGGTTCCATCTCTCAACTCTATCTCCATACTGGGGATGAAGCCCTTAAAGTCCTTGACCATCAACGACATCCCCACCAAATACACATATATTAACAAAACCCAAGTGGTTACTATCTCTTCCATAAATCTGCCATTAGATAAAACATTTCGTGTAAAATGGACCTACCAAAAAACAGGAAAAATATAA

Protein sequence:

>DPOGS212394-PA
MPKIPYKPEKGREEDEDYEIVSFEDFCDKPPGTSTDLLTLNDNINYRLHYETDKASNFPEAGEPSTRDIGMHTETSLNGPKNASYKRKLSFAPFGRTDKNSRGPLFSGVIPKPRNEGESREHRYERFSPRGGWLARTWEQLGNLLPGMLATALLSALCVGAWWAVGGALSGSWGDDHYRRLYERAHPDDIKKPLSPVIEKIIPTENRYHDHNNLSTKNKNITEASYKKDNKKSDYGDLDHQCGDVSDSMRFDCHPQGGASEEACTKRGCCWGATAVQGAPYCYYPKHYPSYRFMNSTENKHSMTVYYAHGLDTGYPGQWGTVMVTFNYLADDVLQIKMTDANNKRFEPPYPEVPVVSGRVTSLQYRVLVDSAAVGFKVIRTEDNVTIVDTQNVGGLILSEKFLQLSSVLPTDHVYGLGEKQAPLLNNFNWNTFTLFNSDMPPIENKSLYGTHPFYLALERNGKSHGMLLLNSNAMDIVLQPSPAITYRAVGGVLDFLVMMGPSPSQVVSQLTSLIGRPFMPPYWALGFHLCKYDYGSLNTTRQVMQRNIDAGIPLDAQWNDLDYMSTANDFTYDKKKYEGLPQFVDDLHQKGMHYVVLVDPGVSASETPGSYPPFDRGLEMDVFVKNSTDQPFVGKVWNPKSTVWPDFTNPNASVYWKEMLEEFYKLVKFDGVWIDMNEPSNFLSGSMYGECDPEDLPYTPAETPQEGLKYKTLCMDAKHYAGKHYDVHNVYAMAEAVVTFNAMREVRGKRPLVLSRASSPGLGRVAAHWSGDVYSKWHDLKMSIPALLSFSLFGVPLMGSDICGFIGDTSEELCKRWMQLGAFYPFSRNHNSNEAKPQDPVAMGAGVVRASRNALRTRYRMLPYYYTLFWKAHVAGETVARPLFMEFPSLSKVHSIDEQFMLGPHVLVSPILIPGNSTTALFPSTTWYSFLDGRYLARDRWMEIGEGDIISIRAGAILPLQEPPSKGPVNTVVSRSGPLQLLVVPDKEGAAHGQLYWDDGDSINTYEEKKYSHIDFIVKNNELQNIVQWWGYGVPSLNSISILGMKPLKSLTINDIPTKYTYINKTQVVTISSINLPLDKTFRVKWTYQKTGKI-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: