MonarchBase - Protein-coding gene

DPGLEAN10351 in OGS1.0

New model in OGS2.0	DPOGS211291
Genomic Position	scaffold3243:+ 555-9207
	See gene structure
CDS Length	3159
Paired RNAseq reads	245
Single RNAseq reads	579
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA012511 (2e-95)
Best Drosophila hit	CG7402 (2e-90)
Best Human hit	arylsulfatase B isoform 1 precursor (9e-64)
Best NR hit (blastp)	glucosinolate sulphatase [Plutella xylostella] (5e-148)
Best NR hit (blastx)	glucosinolate sulphatase [Plutella xylostella] (1e-145)
GeneOntology terms	GO:0003943 N-acetylgalactosamine-4-sulfatase activity GO:0008152 metabolic process
InterPro families	IPR000917 Sulfatase IPR017849 Alkaline phosphatase-like, alpha/beta/alpha IPR017850 Alkaline-phosphatase-like, core domain
Orthology group	MCL40753

Nucleotide sequence:

GGATGGAATGATGTTTCGTATCATGGATCTAATCAAATATTGACGCCTAACTTGGATGTA
TTGGCCAGTAGGGGTGTGATACTTCAACAGTACTACAGCGAGGCGATATGCACTCCGGCA
CGTACAGCGCTACTCACCGGCAAATACCCCATGCGACTAGGAATGCACGGAATGCCGCTA
TATAATTCAGAAGATCGAGGCATACCGGTGTCAGAGCGACTGCTGCCTTCATACTTAAAG
GAAAGAGGTTACAAAACTCATTTGGTCGGTAAGTGGCATGTGGGTATGTCACGAAATCAG
TTCCTACCAACCAGAAGGGGATATGACAGCCATTACGGAATGCTCGGCGGATTTGTAGAT
TATTACACGTACAATAAAGTTGAACTGTTGCCTAATGGGAAAGAGTTCTATGGAGCTGAC
CTTACGGATAACGATATCCCACAAGACGACGAGGACCGATATATTGTAGACGCACTAACT
GAAAGGGCTATAGACATCATACAAAATCACAATGACTCAAGTCCAATGTTCCTTCACTTG
GCGCATAACGTACCACATGCGGGCAACGATGGAGGGCTCCTCCAGCCTCCAAATGTACCA
CTGTCCAAGAGAAATCAACACATTGCTCATTCTAATAGAAGACTCTATGCAGAAATGGTT
ACTCATTTGGACCTCAGTGTTGGAAAAGTTGTAAAGGCTTTAGCAGATAACGGAATGTTG
CAAAACACTATCATCATATTCGCGTCTGATAACGGAGCGCCGACTGTGGGTATGTTTAAT
AACTGGGGAGTGAATTTACCTTTTCGAGGGAAGAAGCAAACTCCTTGGGAAGGGGGCGTT
AGAGTCCCGGCCTTTATATGGCATCCTTCATTAAGACCGAAAGTTTGGGATGGTCTGATG
CACGTTACCGATTGGCTCCCCACTCTCGTGGGGGCTGTTGGGGGTGAAGTGAATGTCCAG
ATTGACGGTGTCAACCAGTGGGATTCTATATCAAAAGATGCAAAACCTAAAAGAAAAGAA
GTATTGATTGCTATTGAAGACAGTGATACCAATATTTACGCCGCTTTTAGAGCTGGTGAT
TATAAGATCGTTGTTGGAAATGTGACCGGCTTAAGCAACGGTTACTATGGGGCTGACTTC
ATGACCTATAGAGCGTGCCCACCTGATTATTTCACTACTCTCAAGTCTTCAGAGGTAGCT
AAGGTTTTCGAATCATTTAATATGAAATTGGACTACGACGAAGTGTTGGCTATGCGAGAA
GCAAGTATTATCAAACAAACAGACCCAGTACGAGACCTCATTCCGTGTGAGCCTAGTCCT
GAACGTGGTTGTCTATACAATGTCAAACGGGATCCGTCGGAGAGCCACGACTTATGGAGC
AGAGGAACTAAGATAACAGATTTACTGTGGAGTAGATTGAAGACCTTATGGTCAATGCAA
TTAAGAAGAGGTCCAGTAACGATAGACCCTCGGGCCGATCCAGCAAATTTCGGTTACAGA
TGGATGCCGTGGCTTAATGACAGTTTGCCAGCCAATACCTTGAATAACACTAATTCATCC
AAAAATGAAATAGCTTCAAATTTTAGTGAAAAATATTATATAGTGCCCTATAGTGACGGT
TCTTCAGATGGAAAGACAGGGTGGGACGACGTGAGCTTTCACGGGTCGGATCAAATTTTG
ACACCGAATATAGACCTGCTCGCCTATACCGGCGTCGCTTTAGAGAGATATTACAGTCAT
TGCATATGCACGCCATCGCGCGCCTCTCTCCTCACTGGGAAATTCGCACATGTCATAGGT
ATGCAGGGCTACCCATTGACAAATGCGGAAGATAGAGCACTACCTCTTGGAGAGAAAATT
CTACCCCAATATTTAAAGGATCTCGGTTATGCCACACATTTGGTTGGAAAATGGCACGTT
GGACAAGCAAGAGCCGAACATTTGCCCACATTCCGAGGTTTTGACACGCATTTCGGTCAC
AGGGGTGGCTATATAGATTACTACGAATACACGTTATTGGAAAACTGGGATGAAGGGGAC
GTTTCTGGATTTGATCTTTTCCGAAATATGACGGCTGCTTGGGAAGTTGAAGGATATATA
ACAGATGTTTATAATGAAGAAGCTAAATCAATTATAAAGGCACATGACGTCTCAAGGCCA
TTATTCCTTATGGTTGCACATAACGCTCCTCACTCCGCAAACGAAGGTGCTTTCTTGCAG
GCACCGTCGGACGAGGTTCGAGCGATGCGGCATATTGAATTGCCACAAAGAAGATATTAT
GCTGCTATGGTAAAAAAACTTGATGACAGCATTGGAGACATCGTTAAAACCCTTTCCGAG
AAGGGCATATTAGATAACACTATAATAGTATTCGTATCTGATAATGGTGGTATAACGTCA
CAGATGTCCGCTAATTATGCCTCCAATTATCCCCTGAGGGGACTTAAAATGAGTCCATTT
GAAGGGGGTATCAGGGTAAACGGGCTGATATGGAGTAAAAATTTAACACAAAGTAACCAT
TTGTGGAAAGGCTACATGCATGTTTCTGATTGGCTGCCGACACTTTTGAAGGCTGTGGGA
GCAGAATCGGCTAAGGAAATTGATGGTTTTGATTTATGGGATAATATAGTAACCAATACC
ATATCGAAAAGAGAGATGATTGTGGAAATTAATGATTATACTGGTTTTTACTCCATAACT
CATAATGATTTTAAACTAGTAGTTGGTTCAGTATTAACTAGTTATAGTGATCATCAAGGG
AAACAATTTAGGGGCATTATTGGTAAACCACCCTCATATGAAGATGCTATCAAGAAAAGC
AAAATTTATTCCGTACTTTCGGATAATGGGATAAATTTTGGATTTAACGAGACAGCACTT
AGAAATAAAATTAAAATTAAATGTAATGATTTGAAACCCAATCAAGAAATATGTTTTCCT
TCAAAAGAGAAATGGTGTTTATTTAATATCAAAGAAGATCCTTGCGAAATAGTGGATTTA
ATGGACACTCACAGTGATGTTGCCAAAGAACTGCATACGAAATTGGAAAGAGAGATAGCC
AGAACAATACCACGTACGATCCCTCATGAAACAAATCTAAAAGCTATGCCCAAATTCCAC
AATTATACTTGGGATATTTGGAAAACTTCGGATGAATAA

Protein sequence:

GWNDVSYHGSNQILTPNLDVLASRGVILQQYYSEAICTPARTALLTGKYPMRLGMHGMPL
YNSEDRGIPVSERLLPSYLKERGYKTHLVGKWHVGMSRNQFLPTRRGYDSHYGMLGGFVD
YYTYNKVELLPNGKEFYGADLTDNDIPQDDEDRYIVDALTERAIDIIQNHNDSSPMFLHL
AHNVPHAGNDGGLLQPPNVPLSKRNQHIAHSNRRLYAEMVTHLDLSVGKVVKALADNGML
QNTIIIFASDNGAPTVGMFNNWGVNLPFRGKKQTPWEGGVRVPAFIWHPSLRPKVWDGLM
HVTDWLPTLVGAVGGEVNVQIDGVNQWDSISKDAKPKRKEVLIAIEDSDTNIYAAFRAGD
YKIVVGNVTGLSNGYYGADFMTYRACPPDYFTTLKSSEVAKVFESFNMKLDYDEVLAMRE
ASIIKQTDPVRDLIPCEPSPERGCLYNVKRDPSESHDLWSRGTKITDLLWSRLKTLWSMQ
LRRGPVTIDPRADPANFGYRWMPWLNDSLPANTLNNTNSSKNEIASNFSEKYYIVPYSDG
SSDGKTGWDDVSFHGSDQILTPNIDLLAYTGVALERYYSHCICTPSRASLLTGKFAHVIG
MQGYPLTNAEDRALPLGEKILPQYLKDLGYATHLVGKWHVGQARAEHLPTFRGFDTHFGH
RGGYIDYYEYTLLENWDEGDVSGFDLFRNMTAAWEVEGYITDVYNEEAKSIIKAHDVSRP
LFLMVAHNAPHSANEGAFLQAPSDEVRAMRHIELPQRRYYAAMVKKLDDSIGDIVKTLSE
KGILDNTIIVFVSDNGGITSQMSANYASNYPLRGLKMSPFEGGIRVNGLIWSKNLTQSNH
LWKGYMHVSDWLPTLLKAVGAESAKEIDGFDLWDNIVTNTISKREMIVEINDYTGFYSIT
HNDFKLVVGSVLTSYSDHQGKQFRGIIGKPPSYEDAIKKSKIYSVLSDNGINFGFNETAL
RNKIKIKCNDLKPNQEICFPSKEKWCLFNIKEDPCEIVDLMDTHSDVAKELHTKLEREIA
RTIPRTIPHETNLKAMPKFHNYTWDIWKTSDE