MonarchBase - Protein-coding gene

DPOGS205501
Transcript	DPOGS205501-TA	2784 bp
Protein	DPOGS205501-PA	927 aa
Genomic position	DPSCF300056 - 450093-461192
RNAseq coverage	2632x (Rank: top 5%)

Annotation
*Heliconius*	HMEL011284	79.85%
*Bombyx*	BGIBMGA000132-TA	71.92%
*Drosophila*	CG14476-PE	48.89%
EBI UniRef50	UniRef50_Q7KMM4	48.89%	BcDNA.GH04962 n=35 Tax=Coelomata RepID=Q7KMM4_DROME
NCBI RefSeq	XP_968738.2	52.82%	PREDICTED: similar to CG14476 CG14476-PB [Tribolium castaneum]
NCBI nr blastp	gi\|307206462	52.51%	Neutral alpha-glucosidase AB [Harpegnathos saltator]
NCBI nr blastx	gi\|383864889	51.59%	PREDICTED: neutral alpha-glucosidase AB-like [Megachile rotundata]

Group
Gene Ontology	GO:0004553	0	hydrolase activity, hydrolyzing O-glycosyl compounds
	GO:0005975	0	carbohydrate metabolic process
	GO:0030246	1.1e-19	carbohydrate binding
	GO:0003824	1.1e-19	catalytic activity
KEGG pathway	tca:657174	0.0
	K05546 (GANAB)	maps->	Protein processing in endoplasmic reticulum
			N-Glycan biosynthesis
InterPro domain	[1-928] IPR000322	0	Glycoside hydrolase, family 31
	[343-704] IPR017853	1.7e-78	Glycoside hydrolase, superfamily
	[28-342] IPR011013	1.1e-19	Glycoside hydrolase-type carbohydrate-binding
Orthology group	MCL10634		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS205501-TA
ATGAAGACGCTGAGTCTTCTTCTGGTGGTTGCACTATCGATTATCAGTAGCTTGGCTGTAGATAGAAACAACTTTAAAACTTGCGAACAGTCGGGCTTTTGTAAGCGGCTTCGGCCATTCAAGTCTGAAAAATCACAGTATGCCTTGAACTTGGATACAGTGATGGTACATGGGAATGTACTGGGAGCGGAAGTCGTCACCCAGGATAATCAAGGAGAGAAAAATAACGTTCTGTGGCGTTATACGCTTAAACTATCAGCTCTCGTCGACGGAACCTTCAGGGTTGAGTTGGATGAATCTGAACCTCTATATCCGAGGTATAGGACACAGTTAGCCCTCGACGGAGAACCGAAAGAAGATAGTCTGAAACTGATATCCAATGAGAGCGGTAAACTGACGGTGGTCAACAGTCAAGGTCATAAGGTCATTATAACAGCTGACCCCTTGAAGTTTGAGTTCTACAACAAGAACGGTGACCTCGCCGTAGTACTGAATGACAACAACCAGCTGATAGTCGAACCGCTGCGGGTGAAGAGGGAGAAGATTGGTGATGATGATGAAGCAGCTGCAGTTGAGGAGGATGAAGGTGCTTGGAGTGAAAATTTCAAATCTCATCACGATAGCAAACCGAGAGGCAACGAGGCTGTGTCCCTGGACGTGGCCTTCCCTGACGCTAACCAGGTTTACGGTATCCCACAACACACGGATAACTTCTATCTCAAGACCACGACGTCCGGTGAGCCCTACCGTTTGTATAACTTGGATGTCTTCGAGTATGAGTTAGACAGTCGCATGGCTATATACGGCGCTGTGCCCGTCCTGTACTCACACAGTAAGCGTCACAGTGCCGGTGTGTTCTGGCACAACTCGGCTGAAACGTGGGTGGATGTGGTGAACTACGCTGACGAAACAGTGGTGTCCTCTCTCGTGAACCTGGTGACTGGGGGGAGGAAGACCAGGGTGGACGCCAGGTTCATGAGTGAGTCCGGTGTGATAGACGTGTTCGTGTTGCTCGGAGACAAGCCCTCCGACGTGTTTAGACAGTACACCAGGCTGACGGGAGTGGCGCCGCTACCGCCGAAATTCTCTCTGGCGTACCATCAATCAAGATGGAACTACGCTGATGAAAACGAAGTGAGGTCTGTGGACGAGGGATTCGACGCAAATGATATACCCGCGGACGTTATCTGGCTGGACATTGAATATACGGATAGGAAAAAATATTTCACCTGGGACCCGGAGAAGTTTGCTCACCCAGCCGAGATGGTGGCGAATCTGACTGCCAAGGGTAGAAAACTGGTGGTCATCATAGACCCGCACATCAAGAGGGAGGCCGGGTACTTCCTGCACGAGGACGCCACCGAGCAAGGGCTATACGTCAAGAACAAGGACGGGAATGACTATGAGGGTTGGTGTTGGCCGGGGTCGTCTTCGTACCTCGACTTCTTCAACCCTAAAGTCATGGATTACTACGTCAAGAGGTATCAGTTCGATAACTTCCCGGGGACCAGCAAGGATGTGCACATATGGAACGATATGAACGAACCTAGTGTATTCAATGGACCGGAAATAACAATGCCAAAGGACTGTCGCCACTACAAACCACCTCAAGACGGACATGACGGTCTCGCGTCTTTCTGGGAACACAGACACGTCCACAACGAGTACGGCCTGTTCCACATCAGCGGCACCCACCAGGGCGTCTTGGATAGGGCGGGCGGGAGATACAGGCCTTTCGTACTAACTCGCTCCACCTTCGCCGGCACACAGCGGTACGCCGCAGTGTGGACCGGCGACAACTCAGCGGAGTGGGGTTTCTTGGAGGCGTCGGTGAGGATGTGCGTGTCGCTGGCGGCGAGCGGCATCAGTCACTGCGGATCGGACGTCGGCGGGTTCTTTAAGTACCCTGAGGAAGAGCTCATGACGAGGTGGTACCAGGCCGCCGCGTATCAACCGTTCTTCCGAGCTCACTCTCACATAGAAACCAAGAGACGGGAGCCCTGGCTGTACCCGGCCGCCACCATGGGCAGGATAAGAGACGCGGTCAGACGGAGATACGCCTTGCTGGACTTTTGGTACACGTTGTTCTACGAGCACTCGGTAGACGGTCTACCAGTCATGAGACCATTGTTCCAGGAATTCCCGGAGGAGGAAGAGACGTTCACTATAGATGACACATATCTGTTGGGCGATCGCTTGCTAGTAAGGCCGGTGTTGTCAGAGGGCGCCACTAGTGTTAAAGTTTATTTCCCCGGAAAGGATTCCAAGACACTGTGGTATGATACAGATTCATATCAGGCATACCCCGGAAACGGATACACTACCATCGATGTCAACATAGCCAAGACTCCGGTGTACCAGCGAGGCGGCACAGTGATCTTCCGCAAGGAGAGGGTCAGGCGAGCATCCCCACTCATGGCGGACGACCCTTACACTGTAGTGGTGACGCTCGACCAACAGAACACGGCGCGCGGCTCGCTGTACATCGACGACGGGGAAACGTACGAGTACACGAAGCACAAGTACACGTACGGGCGACTCGCGTACTCCGCGGACAGGATGGCCTACACGTTCATAGACAAGAACGCACATTACCCGACGCGTTCGTGGGTGGAGCGTATAGTCATAGCGGGTATTAAGAACCCACCGAAATCGGCCAAACTCGTCCAGGACGGTAAAGTCACGCCGCTGCAGATGACCTTGCACCGGGGCAACGACGTGCTGGTGGTGAGGAAACCAGCCGCCGCCATGGCCAAGGAGTGGGAAATACAATTCACATATTAA

Protein sequence:

>DPOGS205501-PA
MKTLSLLLVVALSIISSLAVDRNNFKTCEQSGFCKRLRPFKSEKSQYALNLDTVMVHGNVLGAEVVTQDNQGEKNNVLWRYTLKLSALVDGTFRVELDESEPLYPRYRTQLALDGEPKEDSLKLISNESGKLTVVNSQGHKVIITADPLKFEFYNKNGDLAVVLNDNNQLIVEPLRVKREKIGDDDEAAAVEEDEGAWSENFKSHHDSKPRGNEAVSLDVAFPDANQVYGIPQHTDNFYLKTTTSGEPYRLYNLDVFEYELDSRMAIYGAVPVLYSHSKRHSAGVFWHNSAETWVDVVNYADETVVSSLVNLVTGGRKTRVDARFMSESGVIDVFVLLGDKPSDVFRQYTRLTGVAPLPPKFSLAYHQSRWNYADENEVRSVDEGFDANDIPADVIWLDIEYTDRKKYFTWDPEKFAHPAEMVANLTAKGRKLVVIIDPHIKREAGYFLHEDATEQGLYVKNKDGNDYEGWCWPGSSSYLDFFNPKVMDYYVKRYQFDNFPGTSKDVHIWNDMNEPSVFNGPEITMPKDCRHYKPPQDGHDGLASFWEHRHVHNEYGLFHISGTHQGVLDRAGGRYRPFVLTRSTFAGTQRYAAVWTGDNSAEWGFLEASVRMCVSLAASGISHCGSDVGGFFKYPEEELMTRWYQAAAYQPFFRAHSHIETKRREPWLYPAATMGRIRDAVRRRYALLDFWYTLFYEHSVDGLPVMRPLFQEFPEEEETFTIDDTYLLGDRLLVRPVLSEGATSVKVYFPGKDSKTLWYDTDSYQAYPGNGYTTIDVNIAKTPVYQRGGTVIFRKERVRRASPLMADDPYTVVVTLDQQNTARGSLYIDDGETYEYTKHKYTYGRLAYSADRMAYTFIDKNAHYPTRSWVERIVIAGIKNPPKSAKLVQDGKVTPLQMTLHRGNDVLVVRKPAAAMAKEWEIQFTY-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: