MonarchBase - Protein-coding gene

DPGLEAN16470 in OGS1.0

New model in OGS2.0	DPOGS214966
Genomic Position	scaffold5644:- 3204-6142
	See gene structure
CDS Length	1143
Paired RNAseq reads	195
Single RNAseq reads	732
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA014192 (1e-34)
Best Drosophila hit	CG9701 (4e-45)
Best Human hit	lactase-phlorizin hydrolase preproprotein (4e-42)
Best NR hit (blastp)	PREDICTED: similar to lactase-phlorizin hydrolase [Strongylocentrotus purpuratus] (2e-82)
Best NR hit (blastx)	PREDICTED: similar to lactase-phlorizin hydrolase [Strongylocentrotus purpuratus] (6e-83)
GeneOntology terms	GO:0043169 cation binding GO:0005975 carbohydrate metabolic process GO:0004553 hydrolase activity, hydrolyzing O-glycosyl compounds
InterPro families	IPR013781 Glycoside hydrolase, subgroup, catalytic core IPR001360 Glycoside hydrolase, family 1 IPR018120 Glycoside hydrolase, family 1, active site IPR017853 Glycoside hydrolase, superfamily
Orthology group	MCL25420

Nucleotide sequence:

ATGAGGAGTAATAACGTGTATATACAATACATTTACAGTGCACTGTTAGGAGTTGGATTT
TGTAGAAAATTTCCACCCGGGTTCAAATTTGGTGCAGCCACAGCTGCTTACCAGGTCGAG
GGCGCCTGGAACGTCAGCGACAAATCCGCAAGTATCTGGGACACGTTCGTGCACACTAGA
CCAGAGATTATAGCAGATAGATCCAACGGGGACGTCGCCTGTGACAGCTACAACCAATGG
ATGAAAGACGTGGAAATAGCTTCGGAGTTGGGATTAGATTTCTACAGATTTTCTCTCTCC
TGGCCAAGAATTTTGCCCAATGGTTTTGCAAATAAGATAAGTGAAGACGGTGTAAAATTT
TACTCAAATCTCATTGATGCTTTATTGGAGAGAGGAATTGAGCCTGTCGTAACAATATAT
CACTGGGATTTACCACAAAATTTACAAGATCTTGGTGAAGCGGCTGAACTGGCTCTACAG
TTAATGGGAGGATTGTACTCACATCCAATCTTCTCTAAGAAAGGCGGCTGGCCTGAGCAA
ATAGAAAGACTCGTAGCGGAAAAGAGCAAACAAGAGGGTTTCTCCAAATCCAGATTGCCA
GAATTTACGAAAGAAGAAAAAAAAATAGTAAGAGGCACATATGATTTCTTCGGCTTGAAC
TACTATACCTCACGAACTGCTCGCCGTGCCCGAGGAGAAGTTGTTGGTCCTTGGCCTCTC
TCCGGTGCACCAGACATTGATGTAATAATATCAGTCCGACCAGAATGGCCGCAGGCTGGC
ACCAGCTGGTTGTATGTATACCCGGAAGGTTTCCGGAAGCTCATATCTTGGTTGAAGAAA
CAGTACGGAAACGTGGAAATCTTTATAACAGAGAACGGTTTCTTAACCAGCGGCGAGGAT
TTAGAGGATCAAGCTCGTATAGATTATCATAAGGAGCATTTGGAACAGGTTCTCCTCGCG
ATTCAAGAAGATAAAGCCAATGTCGTGGCGTACACTGCTTGGTCCATGTTAGACAACTTT
GAATGGAGCGATGGCTATCGTTCCAAATTCGGTTTGTACGAAGTGGACTTCAACGACCCA
GCTCGCGTCCGGCGCCCGAGAGCCTCCGCACAGTTTTACAAAGAGATTGTGCAAGCGAAA
TAA

Protein sequence:

MRSNNVYIQYIYSALLGVGFCRKFPPGFKFGAATAAYQVEGAWNVSDKSASIWDTFVHTR
PEIIADRSNGDVACDSYNQWMKDVEIASELGLDFYRFSLSWPRILPNGFANKISEDGVKF
YSNLIDALLERGIEPVVTIYHWDLPQNLQDLGEAAELALQLMGGLYSHPIFSKKGGWPEQ
IERLVAEKSKQEGFSKSRLPEFTKEEKKIVRGTYDFFGLNYYTSRTARRARGEVVGPWPL
SGAPDIDVIISVRPEWPQAGTSWLYVYPEGFRKLISWLKKQYGNVEIFITENGFLTSGED
LEDQARIDYHKEHLEQVLLAIQEDKANVVAYTAWSMLDNFEWSDGYRSKFGLYEVDFNDP
ARVRRPRASAQFYKEIVQAK