MonarchBase - Protein-coding gene

DPOGS204292
Transcript	DPOGS204292-TA	3690 bp
Protein	DPOGS204292-PA	1229 aa
Genomic position	DPSCF300046 + 296207-323840
RNAseq coverage	732x (Rank: top 18%)

Annotation
*Heliconius*	HMEL015191	75.95%
*Bombyx*	BGIBMGA007570-TA	58.81%
*Drosophila*	Sulf1-PA	51.52%
EBI UniRef50	UniRef50_UPI0002247907	51.60%	UPI0002247907 related cluster n=1 Tax=unknown RepID=UPI0002247907
NCBI RefSeq	XP_001606010.1	51.60%	PREDICTED: similar to CG6725-PA [Nasonia vitripennis]
NCBI nr blastp	gi\|345495672	51.60%	PREDICTED: extracellular sulfatase SULF-1 homolog [Nasonia vitripennis]
NCBI nr blastx	gi\|345495672	44.55%	PREDICTED: extracellular sulfatase SULF-1 homolog [Nasonia vitripennis]

Group
Gene Ontology	GO:0008152	1.4e-100	metabolic process
	GO:0003824	1.4e-100	catalytic activity
	GO:0008484	7.2e-57	sulfuric ester hydrolase activity
KEGG pathway
InterPro domain	[216-333] IPR017849	1.4e-100	Alkaline phosphatase-like, alpha/beta/alpha
	[4-366] IPR017850	4.7e-79	Alkaline-phosphatase-like, core domain
	[5-350] IPR000917	7.2e-57	Sulfatase
Orthology group	MCL10736		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS204292-TA
ATGCCTCGTACTATGAAGGCAATCAGAAGTGCTGGCGCTGAGTTTCGGCACGCGTATACCACCACCCCAATGTGCTGCCCATCGAGGAGTTCCTTGCTGACTGGAGTGTATGTACACAATCACAATGTGTACACAAATAACGACAACTGTTCGTCACCGATGTGGCAGGCGAAGCATGAGACCAATACCTTCGCTACTTACCTTTCAAACGCTGGATATCGTACGGGTTATTTTGGCAAGTACTTGAACAAATACAACGGTTCATACATACCTCCGGGCTGGCGTGAATGGGGAGGCCTCATAATGAATTCAAAATACTACAATTACAGCGTTAACATGAATGGAAAGAGAATAAAACACGGAGATGATTATAATAAAGATTATTATCCGGATCTAATAGCGAATGATTCGATAGCGTTCTTGCGTGCTTCAAAGCGAAGATTTTCAAGAAAACCGGTCCTCCTCGTGATGTCTTTCCCCGCACCTCATGGACCCGAGGATTCAGCTCCGCAGTACTCTCATCTCTTCTTTAATGTTACAACCCATCACACACCAACTTACGATATGGCGCCAAATCCAGATAAACAATGGATCCTGCGAGTGACAGAGAAAATGAAACCTATTCATAGACAGTTCACGGACCTGTTAATGACAAAGCGTTTGCAGACTTTGCAAAGTGTTGATGTGGCTGTGGAACGAGTGTACCAGGAGCTTAAGGCTCTCGGGGAGTTAGATAACACCTATCTGGTGTACACATCAGATCACGGATACCACCTTGGACAGTTCGGACTGGTTAAGGGCAAGAGCTTTCCCTTCGAATTCGATATAAGAGTGCCGTTTTTAGTACGCGGCCCGGGAGTCGAACCTGGAACTGTCGTGGACGATATAATTCTCAACATCGATCTGGCGCCCACATTTCTGGATATGGGAGGAGTTCAGCCCCCGCCTCATATGGACGGCAGGTCGCTGCTGCCGCTGCTGCAGCCACGGAGGCGACGAGCGACAGCACATTGGCCAGATACATTCCTAGTCGAGAGCTCTGGACGTCGCGAGACCCAAGCTCATTTAATGGAAGAACGTTTGCGAGCACAAAAATACAGTAAAGAAATGAATGCAAGAACAACGACTATTATGCCGCTACAGTCGTCGTCCGAGAGCGGAGACTTCGAGGACGAGTCTGACGATGACTTCCTGGAACTTGATGATATTATGCCCCTACAGTCGTCGTCCGAGAGCGGAGACTTCGAGGATGAGTCTGATGATGACTTCCTGGAACTTGATGATGACGAAGATGATGAGGACAATGAGAGCACTGAGGATACATCGAACAAATCAAATCAACCTCTCATATCAAATGAAAGTCACAATCCCATACTGGAGGCGAGTCTCGATAAGATTCTTGGAGGTGACGGTGCTGTCAATAATCAATATAATTACCTCAGCCAATCAGAAATGGATGTCATTAATGGGAAGGCAGCACGTATAGCGGCTGAATGTTCCAAAGCTGAACTCCGGGCTCCCTGCTCCGTCGGACGGAAGTGGAAATGTGTGCTTGTTAATGGACGATGGAGGAAACACAAATGTAAATATGAGGATATAACTATTCCACAACCGAAAATGAGCACAAAGAAATGTGCTTGTTTCACTCCAAGTGGCCTTGTTTATACAAGACTGGAAACAGATGGTACAATCGCTAGACGACCCGCAGATTTACAGAAAGATAATAACACAAGATCACGGAGGTCTACAGATAATGATGTATTTGAACCGAACACTGTGGACACAATTCTTGAGGAAAATCCTAGTATTGGACATCTAAGTTTTAACAATGAGCCTATTGATGAAATAGAGAAGAGGAACATTGAAAACAAAGTCGATAAACTCATTAGGGAAACTGAAGCTTTCCTCGAGGCGTACGAACGAACCAAAGATAATATAGATCATAAGAGAAGTAAGAGGCGTGCTCAGCATTGGGGTCACAAACACAAACCACACAAAAACGACCCATTGTTGAACATGAATGAATCGTCTCTAGAATGTAAGATAGATAAAGACGGCACTGTTAATTGTTCGCAAGTTATATACAATGATTTGAAAGCTTGGCACACCAACAGACTGAGTCTAGAAGACCAAATAAGAGAATTGAAAACAAAGTTGGAAGACTTAAAAGAAATTAAGAGGCATTTAAAAATAAGCAAACCTGTTGTCGAAGTACAAACGGTAACGCCATCGTACGTCAACACGCATTTACACAATAAAACACAAACACCTGATAGCACGAAGGACAGCTTTAGGAGATCACGTTTCCATAGAATTAAAACCAAGCACAGGAACAGCACAGTGATTGATAAAAAATTCAGACAACTCAACGAATACATCCTACCGACTGTGAACGGTCACACCAGAGACGACATATTTAACACTCAACTCAGGAACGAAACGTCCACAGAAGCAGTCGTAAAACAATTGAGTACAATTGATCTGGTCGAAATTGATTCCAATCAGACATACGTTTTAGGAAAATTACCAAAACCACAAGTAACTACAATCATAACCGAAAGTAACTTCTATGATCAGAATTTTGCAGCGGAGAAGAGCACGCAGCAAGCAATTACCACGTCGACTGATGATACAGCGACTATATACAGCGATATTTCCGGGATAAATAACACATCCAGTAAAACACCACAAACGGAAAAACCGACGAGCCCGAGTCAAGAAACTTCCACGGACATTCTGTCCACATTGCAGTATTACAGTTCCGAAGCTAATAAAGTAATATTGACAATGACAACGACACCAACTCCTGTGACAAGACGGACAACAGCATCTCATCAAACATATAACCGGACATACCACACAAAACCATCGAACAGACCAAAGTCATCGTCTCTAGGACCAACAAGATTCGATGCGTCGGAATATGAACAAAGAAATCCTAATAAAGGAAATTCTAACAATCACGGAGTATTCAGCAAGCCGATGGACGTGTTCCAAAGAAGATTACATCCTTTGTTTATAGAGAATGAGGATAAACATGTCTGTTACTGTGAAGAGAGTCGCAAAATGAAACCAGTAGGTAACTCGTATTTGGAAGCCACTCAAAGAGCCAGAGAGGAACGAAGGAAATTGAAAGAACAGAGATTGAGAAAGAAGCTTAGGAAAGCGAAGAAGAAGGCGGAATTGGAAAGGTTATGTGAATCAGAGCGTATGAATTGCTTCCGACACGACAATGACCATTGGCGCACAGCCCCGCTATGGACCGCCGGACCTTTCTGTTTCTGTATGAGCGCCTCAAACAATACATACAATTGTGTGAGAACTATTAACTCGACCCACAACCTGCTCTACTGTGAGTTCGTCACTGGTTTGATAACGTACTACAATCTGCGTATAGATCCGTTTGAAACACAAAACAGAGTTAAATATTTATCGTCAGCTGAAAAGGAATATTTCCACAATCAGTTGCAACAGCTTTTGACATGTCGGGGACCGTCGTGTAGAAGATTCTCGCATTCAAATGTTGGAGGTATTAAAGATGATGTCAGCAGACGGACTGAAGATGACCAACTCATGTATAGAGGGGAGCCAATTGGTTACAGTGAAAGGGCATGGCGATGGAGTGGCTATGGTCGTAGATATGCAAGAGCCAGAGAGTTGCACCGGCGTCGACATACCGCGGCCTTCTAG

Protein sequence:

>DPOGS204292-PA
MPRTMKAIRSAGAEFRHAYTTTPMCCPSRSSLLTGVYVHNHNVYTNNDNCSSPMWQAKHETNTFATYLSNAGYRTGYFGKYLNKYNGSYIPPGWREWGGLIMNSKYYNYSVNMNGKRIKHGDDYNKDYYPDLIANDSIAFLRASKRRFSRKPVLLVMSFPAPHGPEDSAPQYSHLFFNVTTHHTPTYDMAPNPDKQWILRVTEKMKPIHRQFTDLLMTKRLQTLQSVDVAVERVYQELKALGELDNTYLVYTSDHGYHLGQFGLVKGKSFPFEFDIRVPFLVRGPGVEPGTVVDDIILNIDLAPTFLDMGGVQPPPHMDGRSLLPLLQPRRRRATAHWPDTFLVESSGRRETQAHLMEERLRAQKYSKEMNARTTTIMPLQSSSESGDFEDESDDDFLELDDIMPLQSSSESGDFEDESDDDFLELDDDEDDEDNESTEDTSNKSNQPLISNESHNPILEASLDKILGGDGAVNNQYNYLSQSEMDVINGKAARIAAECSKAELRAPCSVGRKWKCVLVNGRWRKHKCKYEDITIPQPKMSTKKCACFTPSGLVYTRLETDGTIARRPADLQKDNNTRSRRSTDNDVFEPNTVDTILEENPSIGHLSFNNEPIDEIEKRNIENKVDKLIRETEAFLEAYERTKDNIDHKRSKRRAQHWGHKHKPHKNDPLLNMNESSLECKIDKDGTVNCSQVIYNDLKAWHTNRLSLEDQIRELKTKLEDLKEIKRHLKISKPVVEVQTVTPSYVNTHLHNKTQTPDSTKDSFRRSRFHRIKTKHRNSTVIDKKFRQLNEYILPTVNGHTRDDIFNTQLRNETSTEAVVKQLSTIDLVEIDSNQTYVLGKLPKPQVTTIITESNFYDQNFAAEKSTQQAITTSTDDTATIYSDISGINNTSSKTPQTEKPTSPSQETSTDILSTLQYYSSEANKVILTMTTTPTPVTRRTTASHQTYNRTYHTKPSNRPKSSSLGPTRFDASEYEQRNPNKGNSNNHGVFSKPMDVFQRRLHPLFIENEDKHVCYCEESRKMKPVGNSYLEATQRAREERRKLKEQRLRKKLRKAKKKAELERLCESERMNCFRHDNDHWRTAPLWTAGPFCFCMSASNNTYNCVRTINSTHNLLYCEFVTGLITYYNLRIDPFETQNRVKYLSSAEKEYFHNQLQQLLTCRGPSCRRFSHSNVGGIKDDVSRRTEDDQLMYRGEPIGYSERAWRWSGYGRRYARARELHRRRHTAAF-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: