MonarchBase - Protein-coding gene

DPGLEAN21236 in OGS1.0

New model in OGS2.0	DPOGS211903
Genomic Position	scaffold492:+ 56769-62822
	See gene structure
CDS Length	1692
Paired RNAseq reads	1641
Single RNAseq reads	3571
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA001098 (3e-156)
Best Drosophila hit	CG8646 (1e-150)
Best Human hit	arylsulfatase I precursor (4e-86)
Best NR hit (blastp)	hypothetical protein TcasGA2_TC007349 [Tribolium castaneum] (0.0)
Best NR hit (blastx)	hypothetical protein TcasGA2_TC007349 [Tribolium castaneum] (0.0)
GeneOntology terms	GO:0003943 N-acetylgalactosamine-4-sulfatase activity GO:0008152 metabolic process
InterPro families	IPR017850 Alkaline-phosphatase-like, core domain IPR017849 Alkaline phosphatase-like, alpha/beta/alpha IPR000917 Sulfatase
Orthology group	MCL12456

Nucleotide sequence:

ATGAATAATTCATGTGACAGCTCCGTTGAGTGTCCGCGGCTGACAGCTGAGGAACTTTTT
GAATTTGAATCTCCCAGCAGTATGTTGTTGGTCTTATTATTGTTTATTGTGACCAGTCTG
TCTGATTGTGAGTGTCACGAAAGGCCTAATATTGTGTTAATAATAGCCGACGATTTAGGC
TGGAACGATGTTGGATTCCACGGATCGAACCAAATACCGACCCCCAATATCGATATTATG
GCCTGGTCTGGTGTATCGTTGCACAATTATTACGTGACGCCCATATGCACGCCGTCTAGA
GCTGCGCTCATGACGGGGAAGTATCCGATACATACTGGTATGCAACACACTGTAATTTTC
GCGGCTGAACCTCGAGGGTTGCCGCTCACTGAGAAAATTTTACCCCAATATTTAAAGGAG
CTAGGTTATAAGACACATCTAGTGGGCAAGTGGCATCTCGGATCATACAAAAAGGAATAC
TTGCCGTTAAATAGGGGATTCGACAGCCATCTTGGATTTTGGAACGGAAAAATAGACATG
TACGATCACACGAACCAGGAGAAAGGATATTGGGGATTTGATTTCAGGCGAGACTTCTCC
ACGGCCCACGACCTGTTCGGGCAGTACGCCACAGATGTCTACACTAACGAAGCTGTCAAG
ATAATAAAGTCCCACAACACGAGCTCCCCGCTGTTCCTGATGCTGTCTCACTCCGCGGTC
CACACCGGCAACCCCTCCGAGCCGATCCGGGCTCCAGAAAAGCTATTCGTCAACTTCACA
CATATTCAGGATTTCCAACGGAGAAAATTTGCCGCCGTGCTCACGAAACTGGACGAGTCG
GTCGGGGAAGTGGTCGCCGCGTTGAAGGCGAAGGGTGTGTTGAACGACAGTATCGTGGTG
TTCACGACGGACAACGGCGGGGCCGCGGCCGGGTTCAACGACAACGCCGCCTCCAACTAC
CCTCTTAGAGGGGTAAAGAATACTCTGTGGGAAGGAGGCGTGCGCGGGGCGGGCTGGCTG
TGGAGTCCCTTCATAGACAAGAGATCCCGAGTCGCCACACAGAGGATGCATCTAGTGGAC
TGGCTGCCGACCTTGCTCAGCGCGGCCGGCATGAACGTTAGTTCGATTAAACATATAGAT
GGCGTCGATCAGTGGTGCGCGCTGTCCCAGGACCTCCCGTCCGCCAGAGAGTCCTTAGTC
CACAACATAGACGATGAGTCCGGCAGCGCTTCCATCACGTACAAACAGTGGAAGGTACAT
AAAGGCACCAACTACGGCGGGTCCTGGGACGGGTGGTACGGTCCGGCGGGGCGCGAGGGA
GCGTACGACACCACACGATTACTAGCATCTAAGGCGGCCGGCGCCCTACTGGATATAGGG
ATGTTGCCGGATACGGAGCATATACTGAGACTGAGATCTGAAGCGACCGTGGAGTGTGGA
GACCGCGAGGCGCTCCCGTGTCGACCGCTGGAGGCGCCGTGCCTCTTTAACATAGACGAA
GACCCGTGCGAAACCAGGAACCTCGCCGACATACATCCAGATGTCTTACAAGTGATGTTG
AAGGAGCTCGACAGGGTGAACCGCACCGCGGTCCCCCCGAACAACCAGCCGCTGACCCCC
GGAGGTGACCCCAAGTATTGGGGCTACGTGATAACGAACTTCGGTGATTATATTAATAAT
GAAATAAAATAG

Protein sequence:

MNNSCDSSVECPRLTAEELFEFESPSSMLLVLLLFIVTSLSDCECHERPNIVLIIADDLG
WNDVGFHGSNQIPTPNIDIMAWSGVSLHNYYVTPICTPSRAALMTGKYPIHTGMQHTVIF
AAEPRGLPLTEKILPQYLKELGYKTHLVGKWHLGSYKKEYLPLNRGFDSHLGFWNGKIDM
YDHTNQEKGYWGFDFRRDFSTAHDLFGQYATDVYTNEAVKIIKSHNTSSPLFLMLSHSAV
HTGNPSEPIRAPEKLFVNFTHIQDFQRRKFAAVLTKLDESVGEVVAALKAKGVLNDSIVV
FTTDNGGAAAGFNDNAASNYPLRGVKNTLWEGGVRGAGWLWSPFIDKRSRVATQRMHLVD
WLPTLLSAAGMNVSSIKHIDGVDQWCALSQDLPSARESLVHNIDDESGSASITYKQWKVH
KGTNYGGSWDGWYGPAGREGAYDTTRLLASKAAGALLDIGMLPDTEHILRLRSEATVECG
DREALPCRPLEAPCLFNIDEDPCETRNLADIHPDVLQVMLKELDRVNRTAVPPNNQPLTP
GGDPKYWGYVITNFGDYINNEIK