MonarchBase - Protein-coding gene

DPGLEAN00824 in OGS1.0

New model in OGS2.0	DPOGS201334
Genomic Position	scaffold43222:+ 1548-3390
	See gene structure
CDS Length	1443
Paired RNAseq reads	10
Single RNAseq reads	42
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA010536 (1e-158)
Best Drosophila hit	CG9701 (2e-124)
Best Human hit	lactase-phlorizin hydrolase preproprotein (4e-99)
Best NR hit (blastp)	AGAP006424-PA [Anopheles gambiae str. PEST] (9e-147)
Best NR hit (blastx)	AGAP006424-PA [Anopheles gambiae str. PEST] (3e-146)
GeneOntology terms	GO:0043169 cation binding GO:0005975 carbohydrate metabolic process GO:0004553 hydrolase activity, hydrolyzing O-glycosyl compounds
InterPro families	IPR017853 Glycoside hydrolase, superfamily IPR013781 Glycoside hydrolase, subgroup, catalytic core IPR001360 Glycoside hydrolase, family 1 IPR018120 Glycoside hydrolase, family 1, active site
Orthology group	MCL10077

Nucleotide sequence:

ATGATAATTGTAAATTGCGCTCTAATCTATGGTCTGATTTTTATTATAATCATTAAATTT
AAAATTTTAGGTAAATCTGAAAATATTTGGGATCGATTGACACACCTAGAACCTTGTTAT
ATACACAACTGTGACACGGGAGATATCGCTGCTGATTCCTATCATCAATATAAGCGCGAT
GTGGAGATGATGCGGGAACTAGGTCTCGACTTTTATAGGTTCTCTCTCTCCTGGACGAGA
ATATTACCAACGAGTTTTCCAGACCACATTAATGAAAAAGGAGTCCAATATTACAATAAC
TTAATAAATGAGATGCTTAAATACAACATACAACCCATGGTGACTCTTTATCATTGGGAT
TTACCTCAGAAGTTGCAAGATCTGGGAGGATGGGCAAATCCCCATATAGTTCATTGGTTT
ACCGATTATGCCAAAGTAGTTTTCGAGTTATTTGGAGACAGGGTTAAGTACTGGATAACA
GTCAATGAACCTAAACATGTTTGTCATCAAACAACCCCACAACTATCACTAGATCCATCT
TATAGTGTTTCTTCACATTTTCATTACATGTGTGCCAAAAATCTGCTAGTAGCACATGCT
AACGTCTACCATTTGTATAATAATAAATTTCGTGAAGTCCAAGGTGGTCAAGTCGGTATA
ACAATAAGTGCCGCGTGGGCTGAACCTGAGTCTGAAAGTGACATGAAAGCTGCTGAAGAT
GCCATGCAATTTGAGATGGGTCTTTTTGCAAATCCAATATTTTCGGAATCTGGAGATTAT
CCAACAGTCATGAAAGAAAGAATAGCAGCAAAGAGTAAGGACCAAGGATTTCCGAGATCA
CGATTACCACAATTCACTCCGGAGGAAGTAGATTTAATAAAAGGAAGCTCGGACTTCATT
GGATTAAATCATTATTCTACTAACATTGTTTATAGAAACGAATCTGTCTATGGAAGTTAC
AGTTCTCCATCACTTGAAGATGATGTGGAAGTTTTAAGTTATCAAGATAGTTCATGGGAC
TCAGGTGCTTCATTGTGGTTGAAGCGTGTACCCTGGGGATTTTATAAATTATTAACAAAA
ATACGAGAGGACTACAACAACCCGCCAGTTTTCATCACTGAAAATGGATTCTCAACCCGA
GGTGGTCTAATTGACGACGACCGCATAAAGTATTACAGAACATACATAGATGCTATGCTC
GATGCTATTGAAGATGGATCAGATATAAGAGTTTATACAGCGTGGAGTTTGATGGACAAT
TTCGAATGGATGGAGGGATACAGCGAACGTTTCGGACTGTACGAGGTGGACTACGAGAGT
CCTGAACGCACCCGCACTCCTCGCAAGTCTGCTTACGTGTACAAAGAGATGCTGCGCACA
CGCACACTGGACTATCATTATGAACCTGACATGAGCTTGGGAATGAATGTCGATGAAAAC
TAA

Protein sequence:

MIIVNCALIYGLIFIIIIKFKILGKSENIWDRLTHLEPCYIHNCDTGDIAADSYHQYKRD
VEMMRELGLDFYRFSLSWTRILPTSFPDHINEKGVQYYNNLINEMLKYNIQPMVTLYHWD
LPQKLQDLGGWANPHIVHWFTDYAKVVFELFGDRVKYWITVNEPKHVCHQTTPQLSLDPS
YSVSSHFHYMCAKNLLVAHANVYHLYNNKFREVQGGQVGITISAAWAEPESESDMKAAED
AMQFEMGLFANPIFSESGDYPTVMKERIAAKSKDQGFPRSRLPQFTPEEVDLIKGSSDFI
GLNHYSTNIVYRNESVYGSYSSPSLEDDVEVLSYQDSSWDSGASLWLKRVPWGFYKLLTK
IREDYNNPPVFITENGFSTRGGLIDDDRIKYYRTYIDAMLDAIEDGSDIRVYTAWSLMDN
FEWMEGYSERFGLYEVDYESPERTRTPRKSAYVYKEMLRTRTLDYHYEPDMSLGMNVDEN