MonarchBase - Protein-coding gene

DPOGS215886
Transcript	DPOGS215886-TA	2835 bp
Protein	DPOGS215886-PA	944 aa
Genomic position	DPSCF300029 - 96789-127808
RNAseq coverage	239x (Rank: top 43%)

Annotation
*Heliconius*	HMEL005325	94.33%
*Bombyx*	BGIBMGA000442-TA	76.21%
*Drosophila*	sfl-PB	62.35%
EBI UniRef50	UniRef50_Q9V3L1	62.35%	Bifunctional heparan sulfate N-deacetylase/N-sulfotransferase n=16 Tax=Bilateria RepID=NDST_DROME
NCBI RefSeq	XP_001603996.1	65.14%	PREDICTED: similar to heparan sulfate n-deacetylase/n-sulfotransferase [Nasonia vitripennis]
NCBI nr blastp	gi\|156549989	65.14%	PREDICTED: bifunctional heparan sulfate N-deacetylase/N-sulfotransferase-like [Nasonia vitripennis]
NCBI nr blastx	gi\|156549989	65.80%	PREDICTED: bifunctional heparan sulfate N-deacetylase/N-sulfotransferase-like [Nasonia vitripennis]

Group
Gene Ontology	GO:0016787	2.5e-215	hydrolase activity
	GO:0015016	2.5e-215	[heparan sulfate]-glucosamine N-sulfotransferase activity
	GO:0008146	1.4e-32	sulfotransferase activity
KEGG pathway	nvi:100120347	0.0
	K02577 (NDST2)	maps->	Glycosaminoglycan biosynthesis - heparan sulfate
InterPro domain	[48-527] IPR021930	2.5e-215	Heparan sulphate-N-deacetylase
	[617-917] IPR000863	1.4e-32	Sulfotransferase domain
Orthology group	MCL10385		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS215886-TA
ATGGCGGGCGAGGGACGCGGGTCGCGTGCCCAGCTGTTGGAGTGCGGCGACTATATGCATCCTCATAAAACTGCTACACCGCGCTGCTGTTTATGGCTAGCCAGCCATATCAATGTTAGGAAGTGTGTAGCCGGCGTTATGCTGCTATCAATACTCACAATATTTTTCTATACGTACTATGTAACGGCACCGATAACAAGTTTAGTGTGGCGCGATCGTGTACCGCGACCATTGTCACAATGCTCGCTACTGGCGTCTCAGCAACAGACAGCGCGCGACCATCGCTCAGACGCTCGACTCCGCATAGACGCTAAAGTTCTAGTTATAGCGGAGTCCCTGTATTCTAGACTTGGACGAGACATAGCCGAACTGCTTGTCGCTAATCGAATTAGGTACAAAGTAGAAGTAGCTGGTAAGAGTCTGCCAGTGCTTACCACTTTAGATAAGGGCCGTTATGGAGTTATCGTGTTCGAGTCGCTATCGAAATACGCGAACATGGATAAATGGAATCGTGAACTTCTCGATAAATACTGTCGAGAATACTCAGTTGGGGTCGTCGCTTTCGCAACACCGGGGGAGGAAAGCCTTGTTGGCGCTCAGCTGAGAGGATTTCCACTCTTCATGCATACCAATCTGAGGCTTAAGGATGCAGCCCTTAATCCAGCATCACCTGTACTACGACTTGCCCGAGCTGGTGAGACGGCCTGGGGTCCTCTACCAGGCGATCATTGGACCGTCTTCAGAGCCAACTCCTCAACATACGAACCAGTAGCATGGGCTCTAAGACAGAACGAGTACGGCTCCAACGAGGAACGTCTCCCTTTAGCGACTGTAGTTCAGGACCATGGTCGTTTGGACGGAGTACAGAGAGTGCTGTTTGGGTCTGGGCTTCAGTTTTGGCTTCATAGGATACTGTTCTTGGATGCTCTGAGCTACCTCAGCCACGGGCAGCTCAGCCTCAGCTTGGACAGATGGATACTCGTGGATATAGACGACATCTTCGTAGGAGAAAGAGGTACACGTCTCCACGTAGAGGATGTGTCAGCGTTACTGGCGTCTCAGACAGCCTTACAACGACTTGTCCCAGGCTTCAGGTTTAACCTTGGCTTCAGTGCCAAATATTATCACCACGGAACGCTACTAGAAAATTTGGGCGATGACGCGCTCTTAAAGAATAGAGAGCACTTTAACTGGTTCTGTCATATGTGGAATCACCAACAGCCTCATTTGTACAACAATGTGTCCCAACTCGAAGCCGAGATGACGTTGAACAAGCAATTTGCTCTGGAGCACGGTATTCCAACTAATTCGTGTTATTCGGTGTCGCCTCACCATTCTGGAGTGTATCCTGTCCACGAGCCATTGTATGAAGCTTGGAGGAAAGTGTGGGATGTCAAGGTCACCAGTACTGAAGAATATCCTCATCTACGACCAGCTAGATTGCGGCGCGGTTTCCGTCACCGCGGTGTTATGGTCCTACCACGTCAGACCTGTGGCCTTTTCACACATACTCTACTTCTGGAGCGGTATCCAGGAGGCAGGCAGCGTCTCGACCGCTCCATACAGGGCGGGGAGTTGTTCCAGACAGTTATTAACAACCCGATAAACGTGTTCATGACTCATATGTCAAACTACGGGAACGATCGTCTCGCGTTGTACACGTTTGAATCCGTCGTTAAGTTTCTGAGATGCTGGACGAATGTGCGTCTAGCCTCGGCGCCACCACTATCACTAGCCGAAAAATATTTCCAACTGAGACCAGACGAACTGAACCCACTATGGGGGAACCCATGTGATGACATCCGTCATAGAAAAATCTGGTCGAAATCAAAATGGTGCGAGACATTACCTAAGGTTTTGGTAATAGGTCCCCAGAAGACGGGTAGCACAGCCCTATATACTTTCCTCGCGATGCATCCAGCACTGGTGCCAAATCTTCCCAGTCCAACCACGTACGAAGAATTACAGTTCTTCAACAATAACAATTACCTCAAAGGATTAGATTGGTACTTAAATTTCTTCCCTCCGAGCCAAAACAACGGCACTCAGATAACTTTTGAGAAGTCAGCAACTTACTTCGACGGGGATTTGGTACCACGGCGCGCCCACGCTCTGCTTCCAAACGCCAAGATAATTGCCATACTTATATCGCCCTCTAAAAGGTACTTAAATTTCTTCCCTCCGAGCCAAAACAACGGCACTCAGATAACTTTTGAGAAGTCAGCAACTTACTTCGACGGGGATTTGGTACCACGGCGCGCCCACGCTCTGCTTCCAAACGCCAAGATAATTGCCATACTTATATCGCCCTCTAAAAGGGCGTATTCGTGGTACCAACATATCCGTTCTCATGGGGATCCCGTAGCTAACAACTACACCTTCCACACAATCATCACAGCGAACGACTCAGCAGCGAAGCCGTTAAGAGACCTCAGGAACCGTTGTCTGAACCCTGGGAAGTACAGCCACTACCTGGAGCGTTGGCTGGTGGAGTACAGCGCTCATCAGATTCACGTGATGGACGGCTCACTGCTAAGATCTGAACCAGCTACAGCAATGCATGGACTTCAAAAGTTCCTTAAGATACAACACGTCGACTACGACAAGCTACTGAAATACGATCCCAAAAAAGGTTTCTTCTGTCAGGCCGTCAGCAACGAGAAGACGAAGTGCCTGGGCAAGTCCAAAGGCAGAATATATCCGCCTATGGAGGAGAGGTCGGCTAAATTCTTGAGGCGGTACTACACGCCTCACAACACGGCGTTGTCCAAACTGCTGGTCAGACTCGGCCGGCCAGTGCCGCAGTGGCTCAAGGACGAACTGACGAACGGATAA

Protein sequence:

>DPOGS215886-PA
MAGEGRGSRAQLLECGDYMHPHKTATPRCCLWLASHINVRKCVAGVMLLSILTIFFYTYYVTAPITSLVWRDRVPRPLSQCSLLASQQQTARDHRSDARLRIDAKVLVIAESLYSRLGRDIAELLVANRIRYKVEVAGKSLPVLTTLDKGRYGVIVFESLSKYANMDKWNRELLDKYCREYSVGVVAFATPGEESLVGAQLRGFPLFMHTNLRLKDAALNPASPVLRLARAGETAWGPLPGDHWTVFRANSSTYEPVAWALRQNEYGSNEERLPLATVVQDHGRLDGVQRVLFGSGLQFWLHRILFLDALSYLSHGQLSLSLDRWILVDIDDIFVGERGTRLHVEDVSALLASQTALQRLVPGFRFNLGFSAKYYHHGTLLENLGDDALLKNREHFNWFCHMWNHQQPHLYNNVSQLEAEMTLNKQFALEHGIPTNSCYSVSPHHSGVYPVHEPLYEAWRKVWDVKVTSTEEYPHLRPARLRRGFRHRGVMVLPRQTCGLFTHTLLLERYPGGRQRLDRSIQGGELFQTVINNPINVFMTHMSNYGNDRLALYTFESVVKFLRCWTNVRLASAPPLSLAEKYFQLRPDELNPLWGNPCDDIRHRKIWSKSKWCETLPKVLVIGPQKTGSTALYTFLAMHPALVPNLPSPTTYEELQFFNNNNYLKGLDWYLNFFPPSQNNGTQITFEKSATYFDGDLVPRRAHALLPNAKIIAILISPSKRYLNFFPPSQNNGTQITFEKSATYFDGDLVPRRAHALLPNAKIIAILISPSKRAYSWYQHIRSHGDPVANNYTFHTIITANDSAAKPLRDLRNRCLNPGKYSHYLERWLVEYSAHQIHVMDGSLLRSEPATAMHGLQKFLKIQHVDYDKLLKYDPKKGFFCQAVSNEKTKCLGKSKGRIYPPMEERSAKFLRRYYTPHNTALSKLLVRLGRPVPQWLKDELTNG-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: