MonarchBase - Protein-coding gene

DPGLEAN08084 in OGS1.0

New model in OGS2.0	DPOGS215886
Genomic Position	scaffold311:- 20196-51077
	See gene structure
CDS Length	2541
Paired RNAseq reads	1206
Single RNAseq reads	2927
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA000442 (0.0)
Best Drosophila hit	sulfateless, isoform B (0.0)
Best Human hit	bifunctional heparan sulfate N-deacetylase/N-sulfotransferase 2 (0.0)
Best NR hit (blastp)	PREDICTED: similar to heparan sulfate n-deacetylase/n-sulfotransferase [Nasonia vitripennis] (0.0)
Best NR hit (blastx)	PREDICTED: similar to heparan sulfate n-deacetylase/n-sulfotransferase [Nasonia vitripennis] (0.0)
GeneOntology terms	GO:0007367 segment polarity determination GO:0015016 [heparan sulfate]-glucosamine N-sulfotransferase activity GO:0008543 fibroblast growth factor receptor signaling pathway GO:0007427 epithelial cell migration, open tracheal system GO:0007509 mesoderm migration GO:0016055 Wnt receptor signaling pathway GO:0015014 heparan sulfate proteoglycan biosynthetic process, polysaccharide chain biosynthetic process GO:0006024 glycosaminoglycan biosynthetic process GO:0006790 sulfur metabolic process GO:0015012 heparan sulfate proteoglycan biosynthetic process GO:0007166 cell surface receptor linked signaling pathway GO:0007507 heart development GO:0005575 cellular_component GO:0007428 primary branching, open tracheal system
InterPro families	IPR021930 Heparan sulphate-N-deacetylase IPR000863 Sulfotransferase domain
Orthology group	MCL10631

Nucleotide sequence:

ATGCTGCTATCAATACTCACAATATTTTTCTATACGTACTATGTAACGGCACCGATAACA
AGTTTAGTGTGGCGCGATCGTGTACCGCGACCATTGTCACAATGCTCGCTACTGGCGTCT
CAGCAACAGACAGCGCGCGACCATCGCTCAGACGCTCGACTCCGCATAGACGCTAAAGTT
CTAGTTATAGCGGAGTCCCTGTATTCTAGACTTGGACGAGACATAGCCGAACTGCTTGTC
GCTAATCGAATTAGGTACAAAGTAGAAGTAGCTGGTAAGAGTCTGCCAGTGCTTACCACT
TTAGATAAGGGCCGTTATGGAGTTATCGTGTTCGAGTCGCTATCGAAATACGCGAACATG
GATAAATGGAATCGTGAACTTCTCGATAAATACTGTCGAGAATACTCAGTTGGGGTCGTC
GCTTTCGCAACACCGGGGGAGGAAAGCCTTGTTGGCGCTCAGCTGAGAGGATTTCCACTC
TTCATGCATACCAATCTGAGGCTTAAGGATGCAGCCCTTAATCCAGCATCACCTGTACTA
CGACTTGCCCGAGCTGGTGAGACGGCCTGGGGTCCTCTACCAGGCGATCATTGGACCGTC
TTCAGAGCCAACTCCTCAACATACGAACCAGTAGCATGGGCTCTAAGACAGAACGAGTAC
GGCTCCAACGAGGAACGTCTCCCTTTAGCGACTGTAGTTCAGGACCATGGTCGTTTGGAC
GGAGTACAGAGAGTGCTGTTTGGGTCTGGGCTTCAGTTTTGGCTTCATAGGATACTGTTC
TTGGATGCTCTGAGCTACCTCAGCCACGGGCAGCTCAGCCTCAGCTTGGACAGATGGATA
CTCGTGGATATAGACGACATCTTCGTAGGAGAAAGAGGTACACGTCTCCACGTAGAGGAT
GTGTCAGCGTTACTGGCGTCTCAGACAGCCTTACAACGACTTGTCCCAGGCTTCAGGTTT
AACCTTGGCTTCAGTGCCAAATATTATCACCACGGAACGCTACTAGAAAATTTGGGCGAT
GACGCGCTCTTAAAGAATAGAGAGCACTTTAACTGGTTCTGTCATATGTGGAATCACCAA
CAGCCTCATTTGTACAACAATGTGTCCCAACTCGAAGCCGAGATGACGTTGAACAAGCAA
TTTGCTCTGGAGCACGGTATTCCAACTAATTCGTGTTATTCGGTGTCGCCTCACCATTCT
GGAGTGTATCCTGTCCACGAGCCATTGTATGAAGCTTGGAGGAAAGTGTGGGATGTCAAG
GTCACCAGTACTGAAGAATATCCTCATCTACGACCAGCTAGATTGCGGCGCGGTTTCCGT
CACCGCGGTGTTATGGTCCTACCACGTCAGACCTGTGGCCTTTTCACACATACTCTACTT
CTGGAGCGGTATCCAGGAGGCAGGCAGCGTCTCGACCGCTCCATACAGGGCGGGGAGTTG
TTCCAGACAGTTATTAACAACCCGATAAACGTGTTCATGACTCATATGTCAAACTACGGG
AACGATCGTCTCGCGTTGTACACGTTTGAATCCGTCGTTAAGTTTCTGAGATGCTGGACG
AATGTGCGTCTAGCCTCGGCGCCACCACTATCACTAGCCGAAAAATATTTCCAACTGAGA
CCAGACGAACTGAACCCACTATGGGGGAACCCATGTGATGACATCCGTCATAGAAAAATC
TGGTCGAAATCAAAATGGTGCGAGACATTACCTAAGGTTTTGGTAATAGGTCCCCAGAAG
ACGGGTAGCACAGCCCTATATACTTTCCTCGCGATGCATCCAGCACTGGTGCCAAATCTT
CCCAGTCCAACCACGTACGAAGAATTACAGTTCTTCAACAATAACAATTACCTCAAAGGA
TTAGATTGGTACTTAAATTTCTTCCCTCCGAGCCAAAACAACGGCACTCAGATAACTTTT
GAGAAGTCAGCAACTTACTTCGACGGGGATTTGGTACCACGGCGCGCCCACGCTCTGCTT
CCAAACGCCAAGATAATTGCCATACTTATATCGCCCTCTAAAAGGGCGTATTCGTGGTAC
CAACATATCCGTTCTCATGGGGATCCCGTAGCTAACAACTACACCTTCCACACAATCATC
ACAGCGAACGACTCAGCAGCGAAGCCGTTAAGAGACCTCAGGAACCGTTGTCTGAACCCT
GGGAAGTACAGCCACTACCTGGAGCGTTGGCTGGTGGAGTACAGCGCTCATCAGATTCAC
GTGATGGACGGCTCACTGCTAAGATCTGAACCAGCTACAGCAATGCATGGACTTCAAAAG
TTCCTTAAGATACAACACGTCGACTACGACAAGCTACTGAAATACGATCCCAAAAAAGGT
TTCTTCTGTCAGGCCGTCAGCAACGAGAAGACGAAGTGCCTGGGCAAGTCCAAAGGCAGA
ATATATCCGCCTATGGAGGAGAGGTCGGCTAAATTCTTGAGGCGGTACTACACGCCTCAC
AACACGGCGTTGTCCAAACTGCTGGTCAGACTCGGCCGGCCAGTGCCGCAGTGGCTCAAG
GACGAACTGACGAACGGATAA

Protein sequence:

MLLSILTIFFYTYYVTAPITSLVWRDRVPRPLSQCSLLASQQQTARDHRSDARLRIDAKV
LVIAESLYSRLGRDIAELLVANRIRYKVEVAGKSLPVLTTLDKGRYGVIVFESLSKYANM
DKWNRELLDKYCREYSVGVVAFATPGEESLVGAQLRGFPLFMHTNLRLKDAALNPASPVL
RLARAGETAWGPLPGDHWTVFRANSSTYEPVAWALRQNEYGSNEERLPLATVVQDHGRLD
GVQRVLFGSGLQFWLHRILFLDALSYLSHGQLSLSLDRWILVDIDDIFVGERGTRLHVED
VSALLASQTALQRLVPGFRFNLGFSAKYYHHGTLLENLGDDALLKNREHFNWFCHMWNHQ
QPHLYNNVSQLEAEMTLNKQFALEHGIPTNSCYSVSPHHSGVYPVHEPLYEAWRKVWDVK
VTSTEEYPHLRPARLRRGFRHRGVMVLPRQTCGLFTHTLLLERYPGGRQRLDRSIQGGEL
FQTVINNPINVFMTHMSNYGNDRLALYTFESVVKFLRCWTNVRLASAPPLSLAEKYFQLR
PDELNPLWGNPCDDIRHRKIWSKSKWCETLPKVLVIGPQKTGSTALYTFLAMHPALVPNL
PSPTTYEELQFFNNNNYLKGLDWYLNFFPPSQNNGTQITFEKSATYFDGDLVPRRAHALL
PNAKIIAILISPSKRAYSWYQHIRSHGDPVANNYTFHTIITANDSAAKPLRDLRNRCLNP
GKYSHYLERWLVEYSAHQIHVMDGSLLRSEPATAMHGLQKFLKIQHVDYDKLLKYDPKKG
FFCQAVSNEKTKCLGKSKGRIYPPMEERSAKFLRRYYTPHNTALSKLLVRLGRPVPQWLK
DELTNG