MonarchBase - Protein-coding gene

DPOGS202474
Transcript	DPOGS202474-TA	2274 bp
Protein	DPOGS202474-PA	757 aa
Genomic position	DPSCF300326 - 21125-24175
RNAseq coverage	572x (Rank: top 22%)

Annotation
*Heliconius*	HMEL004156	4e-91	78.87%
*Bombyx*	BGIBMGA012390-TA	2e-11	25.76%
*Drosophila*	CG43313-PA	5e-79	32.02%
EBI UniRef50	UniRef50_Q16SL4	2e-91	29.71%	Chondroitin synthase n=4 Tax=Diptera RepID=Q16SL4_AEDAE
NCBI RefSeq	XP_001601123.1	2e-95	29.96%	PREDICTED: similar to chondroitin synthase [Nasonia vitripennis]
NCBI nr blastp	gi\|156547033	3e-94	29.96%	PREDICTED: chondroitin sulfate synthase 2-like [Nasonia vitripennis]
NCBI nr blastx	gi\|170067761	4e-85	32.47%	chondroitin synthase [Culex quinquefasciatus]

Group
Gene Ontology	GO:0032580	3.7e-85	Golgi cisterna membrane
	GO:0016758	3.7e-85	transferase activity, transferring hexosyl groups
KEGG pathway	nvi:100116694	5e-95
	K03419 (CHPF2)	maps->	Glycosaminoglycan biosynthesis - chondroitin sulfate
InterPro domain	[46-668] IPR008428	3.7e-85	Chondroitin N-acetylgalactosaminyltransferase
Orthology group	MCL12076		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS202474-TA
ATGTTATCACGCTACGTGGTATCGCAAGTGAAACATAACTCCTACTTCCTGGTGGGGTTGGGTATCGGTCTATGGCTCGCACTGGCGACGGTGCCACTTGAAGAGGATGTGGTGTCTTGCGAGGACACCACTGCCGCGGCCCTGGACCCAGGCCTGGACGAATTCCAGCCGCAGCGTGAGGAGCGACCTCCGGGCGCGGTGGGACCCGCGGGTCGCACGGTCACTAGACCACGATACTACAGTACAGAACTGGGCATGCGAGCCGCCCTACTGGCAGGTGTCCTGAGTTCCGAGGCAGCCCTAGAGTCTCGCGCCGCCGCCTTCAACCAGACGGCCGCAGATCTTAAGCCCGCCCTGCGCTTCTTCATCACGGCGAGCGCTCTACAAGGCGCCCCGGGCCGAGCCAACGTGGTGGGCTTCACAGACACACGCGAGATGCTGAAGCCGTTCCACGCGCTCAAGTACCTCGCCGATAACTTCCTCGAGGAGTACGACTTCTTCTTCCTCGTGTCGGACTCCACTTTCGTGAACGCGCGTCGTCTGAACCGGCTCGTGGCCAGCCTCAGCGTGAGCCAGGACCTGTACATGGGAGCCGTCTCCGGCGACGACACTCACTACTGCACGCTGGAGGCCGGCATCCTCATGTCCAACTCTGTGCTGCGAGCCGTGCACGAGGAGCTGGACTGGTGCGTCAGGAACTCCTACTCCCCGCACCACCACGAGAACCTGGGCCGCTGCGTGCTGCACGCGGCCGGCCTCCGGTGCGTCGCCGGCCTCCAGGCCGTCTCTTACGACACGGCCCACCTCCGCCCCGCTCACCCGGACGGCCCCGCCAGTTTGCACCCCGCCTTGGCGGACGCAGTAACCGTCCACCCGGCGCTGACCCCCGAGGACTTCTACCGCCTGCACGCCTACGTGTCCAGGGTGAACCTGGAGCGTGTTGGGGAGGACGAGGCGCGGACTCGAGCGGAGGCGGCGCTCAGCTCCCGTCACCATCCCCGGGGGTACAGGAACGTGTCGTGGCCAACCGCCCTACGAGCGGACGCAGGTCTAGCGCCGCCACCCCCACCCACCAGGTCCGAGTTCGACCTCCTCCGCTGGACGCGGTTTAATCTCACACACGCCCTCCAGCTGGACGACCACCGCGCCGTCTCCAAGCTGAGCGCATCCTACAAGCAAGCCGTGGCCCTGATCGTAGAGGAGGCACGGGCGTGGGTGGAGCGGAGATGGGGCGGCGAGGAAGGCGGGGCGCTTTCGGTGAGCCTCGAGGAAGGAGCGTGGTGCTGGGAGCCGCCCCGGGCGCTCCGGTACCGCCTCTTGCTGAGAGTGACCGCGGAGGGAGGCGGGCGTCTGCTGCAAGTGGAGGCGGCGCGAGCGCTGGGAGCGGCCCGCCTCGCACCCGCAGCCTACGTCACGGAGAGCGCCCGCGTCCACCTCGTGCTGCCAGCCCCCGACCAGCGCTCACACCTCACCGCTTTCCTGGAGCGGTACGAGACGGTCTGCCTCCAGAGAGACGACAACACGGCTCTGTATGTGGTCGTGATACCGGCCAGTGACGGAGGACATCTGACAGCAGAAGAGCGAGCTCATCTGGAGGAGGTCAAGGAGATGGTGAGGGCGGTCGGAGAGAAACACCGCGCGGGACAACACATGGACGTTATCGTGTCCAGCATCGGGCGCGGCGCGGGGACGGGGGGTGGTGTCTCCGGGAGTGGGGAGAGAGCGCGGGAGGACGTACGGCTCGCCCTGAGGGCGGCACTCGTTCGGGCCGCGAAGGATGCGTTGCTGTTGGTGGCCGACCATAGCATGGAGTTCACCGAAGACTTCCTCAACAGGGTCCGCATGAACACGATCGCGGGCTCGCAGTGGTTCAGTCCGCTGGCCTTCGCTCGCTTCGCGCAGTACGCTCACCCTCGCTTCGTGGAGGCGGACGGGTCGCGGCCGACTCTCCACACGGGCCGCTTCTCTCACACCGAGCTGCTCTCCGTGTACAAGGGCGACTACTCGGACGCTCTCCGCAGCTGGCTGGAGGCGGGAGGCTCCGAGGAGGCGTCACCGTCCGCGGTCCTCGCCGCTAGCCCCCTACGCGTGCTGCGCGCCCCTGAGCCGGCCCTGCTACTCCCGCCCCGGCCCCGCCCCTGCACACCCTCCTCCCCCTCCGAGGAGAGGGCGTGTCTGGTCCGTGAGCGCGAGCGTGGTTTCTCTGACCTGTTGCTGGGCGCTCGTCAGTCGCTCGCCAAGTTGCTGCTGCAGACTCAGGCGGAGCTCGAGTGA

Protein sequence:

>DPOGS202474-PA
MLSRYVVSQVKHNSYFLVGLGIGLWLALATVPLEEDVVSCEDTTAAALDPGLDEFQPQREERPPGAVGPAGRTVTRPRYYSTELGMRAALLAGVLSSEAALESRAAAFNQTAADLKPALRFFITASALQGAPGRANVVGFTDTREMLKPFHALKYLADNFLEEYDFFFLVSDSTFVNARRLNRLVASLSVSQDLYMGAVSGDDTHYCTLEAGILMSNSVLRAVHEELDWCVRNSYSPHHHENLGRCVLHAAGLRCVAGLQAVSYDTAHLRPAHPDGPASLHPALADAVTVHPALTPEDFYRLHAYVSRVNLERVGEDEARTRAEAALSSRHHPRGYRNVSWPTALRADAGLAPPPPPTRSEFDLLRWTRFNLTHALQLDDHRAVSKLSASYKQAVALIVEEARAWVERRWGGEEGGALSVSLEEGAWCWEPPRALRYRLLLRVTAEGGGRLLQVEAARALGAARLAPAAYVTESARVHLVLPAPDQRSHLTAFLERYETVCLQRDDNTALYVVVIPASDGGHLTAEERAHLEEVKEMVRAVGEKHRAGQHMDVIVSSIGRGAGTGGGVSGSGERAREDVRLALRAALVRAAKDALLLVADHSMEFTEDFLNRVRMNTIAGSQWFSPLAFARFAQYAHPRFVEADGSRPTLHTGRFSHTELLSVYKGDYSDALRSWLEAGGSEEASPSAVLAASPLRVLRAPEPALLLPPRPRPCTPSSPSEERACLVRERERGFSDLLLGARQSLAKLLLQTQAELE-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: