MonarchBase - Protein-coding gene

DPOGS202361
Transcript	DPOGS202361-TA	2754 bp
Protein	DPOGS202361-PA	917 aa
Genomic position	DPSCF300104 - 186667-189420
RNAseq coverage	125x (Rank: top 57%)

Annotation
*Heliconius*	HMEL002893	0.0	64.18%
*Bombyx*	BGIBMGA013995-TA	0.0	58.70%
*Drosophila*	CG14476-PE	8e-16	23.44%
EBI UniRef50	UniRef50_C0X659	0.0	56.20%	Glycosyl hydrolase n=34 Tax=cellular organisms RepID=C0X659_ENTFA
NCBI RefSeq	XP_002161972.1	2e-36	31.21%	PREDICTED: similar to alpha glucosidase II alpha subunit [Hydra magnipapillata]
NCBI nr blastp	gi\|227519011	0.0	56.20%	glycosyl hydrolase [Enterococcus faecalis TX0104]
NCBI nr blastx	gi\|307287998	0.0	56.16%	LPXTG-motif protein cell wall anchor domain protein [Enterococcus faecalis TX0109]

Group
Gene Ontology	GO:0004553	4.8e-117	hydrolase activity, hydrolyzing O-glycosyl compounds
	GO:0005975	4.8e-117	carbohydrate metabolic process
	GO:0030246	1.4e-27	carbohydrate binding
	GO:0003824	1.4e-27	catalytic activity
KEGG pathway	dtu:Dtur_0650	7e-43
	K01187 (E3.2.1.20, malZ)	maps->	Starch and sucrose metabolism
			Galactose metabolism
InterPro domain	[413-796] IPR000322	4.8e-117	Glycoside hydrolase, family 31
	[1-224] IPR011013	1.4e-27	Glycoside hydrolase-type carbohydrate-binding
	[421-558] IPR017853	1.2e-23	Glycoside hydrolase, superfamily
Orthology group	MCL26161		Lepidoptera specific

Nucleotide sequence:

>DPOGS202361-TA
ATGATAGGTGCTGTGAAAAGCATCACAAAGGTCACTAAGTACTACCAAATTAATTTCTCGACTGGCGAGGAAGCGAGGTTGTATGTCCTCAATGATCATGTTTTCAGATACTACGTGTCACCCAAAGGAATCTTTCTAGACTATCCGGAACCCATGAACCCAGAACATGAAGCCAGAATCGTTTACAAACACGAAGACGCATACGGCTTACAAGCATTCAAAGAGTCCACTTTAAAAGACGACGATTCCCGTTACATCATAGAAACTAAAGATGTGAAAATTATATTTCATAAAACGCTTGGTACTATGGAGGTACACGATTTGAGAAGGGGCAAGGAAGTATTCGGCGAATTAAGGCCTTTGTCGTATAAAAATTGTCACTCTATGCAAACCCTTCGTCAGAGACGAGATGAGTATTTTTTTGGGGGCGGCATGCAGAACGGCAGATTCACCCACAAAGGAGAAGTCATAGAGATAGTCAACACCAACAAGTGGAACGACGGAGACGTCGCTTCGCCTTGCCCATTTTATTGGTCCTCGTCCGGCTATGGCGCACTGAGAAACACTTTTCGACCAGGCGAATACGATTTTGGGATAAAATCTATGAGTTACATAGAAACAACTCATAACGGCGTAGATTTTGATGCGTTCTACTTCATAAATGAACTGCCGAGAGACATTTTAAACGATTACTACGAACTAACAGGGAAACCGATACTGTTGCCAGAATACGCGTATTATGAGGCACATTTGAACGCGTTCAATCGAGATTATTGGGTCAAAGTAACATCCGACATAAATGGCGCCATACTATTCGAAGACGGACAATACTATAAATGCTTTCAGCCAAATCAAATCGGTGACAAGACGGGGATTTTGGAGTCTTTGAATGGAGACGAGAATAATTATCAATTTTCCGCCCGCGCTATGATAGATAGATATAAAAAGCACGATTTACCGCTGGGCTGGTTTATACCCAACGACGGCTACGGCTCAGGATATGGACAGACTGATTCTATGGATGGTGACATACAGAATTTGAAACGTTTCTCTGATTACGCGTTACAAAATGGCGTAGAGTGTGCTCTGTGGACGGAGAGCAACCTGACACCCAAGGATCCTTTGAACCCAAAAAAGGGAGAAAGAGATTTATCCAAAGAGGTGGGAATCGCTAATGTGGTAGCATTAAAATGCGACGTAGCCTGGGTGGGCAGCGGATATTCGTTCGGACTCTCAGCTATAGAGAACGCGACGGACATATTCGTTAAAAGCACGAGAAATAATGTCAGACCCTTCATCATCATGGTGGATGGATGGGCTGGATGTCAACGCTATGCGGGTATATGGAGTGGAGACCAGAAGGGCGGGGAGTGGGAGTACATAAGGTTTCATATACCGACTTATATCGGTGCTGGGCTCTCTGGAATACCGCTCGTCGGTTCAGATATGGATGGCATCTACGCCGGGGGTGATAAGGAAATTAACATACGAGAATATCAATGGAAAACTTTCACCCCGATACAACTTAACATGGATGGGTGGGGTCACGTACAAAAGACGCCATTCACGTTCGGCGAGGAAGCGACATACATAAACAGGGGATATTTGAAATTAAAATCAATGTTGATCCCATACAACTACAGCATTGGCTATGAATCGATCCACGGCCTGCCCATGGTTAGGGCCATGTTCTTAGAATATCCAGGAGAAGTAACGGCTTACACTTTAGAATCCCAATACCAGTACATGTGGGGTCCGAATATTTTGGTTGCTCCTATATACAGCGGCGAGAAATTAGGCAAAGACTCACTACGTGATGGAATCTACTTGCCAGATTCCAATCAGATATGGATAGACTTTCTAACCGGCGAGAAATATCAAGGGGGGAAGATTTACAACAACATTGTATCACCTTTATGGAAAATACCTGTTTTTGTTAAGGACGGCGCCATAATACCAACCACAAATCCGAACAACAATCCTTACGAAATAAAACGAGATCTTAGAGTATTCACCGTGTATCCCAACGGCACGTCTAGCTTTATCGTATACGAAGACGATGGAATTACGTCCGATTATCTAAAAGGTTCGTACGCCACGACCAAAATCCATGCCAGTGGTCCTGTGTCTAATAAAAATGGGGATTTAATTATAAAAATACACAAAACTAAAGGACACTATAAGAACATTGTGAAGGAAAGACGTACTTTGATACAAGTAATGTGCTCCAGAGCGGTCGGACGGATAAAGGTATCAGCCAACGAAAAATCTATCAGATTAAAGAAAGTTCGTAACTCAGACGAGTTCGCTAACAACGACGACTGTTTCTATCACGATGAGAATTTCCAATTCAACCCCTACCTTAAAAACTATGCCGAGACGAAGCAAAAATTCCTACTAATAAAACTTAGTAAATTAGACGTCACAGCGTGTGAGATAATCATAAAGATCAAAGATGTATCTAATAAAAGTGCTGTTTACGGCAAAATTGATGTCGACAACGGAATTGAAGTCCCGAAAAATGTTAAAGAAGTGGAACATGGGACCTCAACCATAGGTTTGCAATGGGATAACAGCAATTACGATTATAACGAAGTAGAAAAAGACGGTGTTATATACACAAATATAAAAAACAATTCGTTCATATTTAATCATGCGGACGGCGTACATGAATGTAGAGTCCGTTCAGTAGTAGGCGTAAAAGCATCTAAATGGAGTGAGAAAGTAATTTTAAATAATCAGAATGTACTATAA

Protein sequence:

>DPOGS202361-PA
MIGAVKSITKVTKYYQINFSTGEEARLYVLNDHVFRYYVSPKGIFLDYPEPMNPEHEARIVYKHEDAYGLQAFKESTLKDDDSRYIIETKDVKIIFHKTLGTMEVHDLRRGKEVFGELRPLSYKNCHSMQTLRQRRDEYFFGGGMQNGRFTHKGEVIEIVNTNKWNDGDVASPCPFYWSSSGYGALRNTFRPGEYDFGIKSMSYIETTHNGVDFDAFYFINELPRDILNDYYELTGKPILLPEYAYYEAHLNAFNRDYWVKVTSDINGAILFEDGQYYKCFQPNQIGDKTGILESLNGDENNYQFSARAMIDRYKKHDLPLGWFIPNDGYGSGYGQTDSMDGDIQNLKRFSDYALQNGVECALWTESNLTPKDPLNPKKGERDLSKEVGIANVVALKCDVAWVGSGYSFGLSAIENATDIFVKSTRNNVRPFIIMVDGWAGCQRYAGIWSGDQKGGEWEYIRFHIPTYIGAGLSGIPLVGSDMDGIYAGGDKEINIREYQWKTFTPIQLNMDGWGHVQKTPFTFGEEATYINRGYLKLKSMLIPYNYSIGYESIHGLPMVRAMFLEYPGEVTAYTLESQYQYMWGPNILVAPIYSGEKLGKDSLRDGIYLPDSNQIWIDFLTGEKYQGGKIYNNIVSPLWKIPVFVKDGAIIPTTNPNNNPYEIKRDLRVFTVYPNGTSSFIVYEDDGITSDYLKGSYATTKIHASGPVSNKNGDLIIKIHKTKGHYKNIVKERRTLIQVMCSRAVGRIKVSANEKSIRLKKVRNSDEFANNDDCFYHDENFQFNPYLKNYAETKQKFLLIKLSKLDVTACEIIIKIKDVSNKSAVYGKIDVDNGIEVPKNVKEVEHGTSTIGLQWDNSNYDYNEVEKDGVIYTNIKNNSFIFNHADGVHECRVRSVVGVKASKWSEKVILNNQNVL-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: