MonarchBase - Protein-coding gene

DPGLEAN18637 in OGS1.0

New model in OGS2.0	DPOGS203972
Genomic Position	scaffold2:+ 592325-599364
	See gene structure
CDS Length	1941
Paired RNAseq reads	639
Single RNAseq reads	1442
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA000733 (0.0)
Best Drosophila hit	polypeptide N-acetylgalactosaminyltransferase 35A (5e-143)
Best Human hit	polypeptide N-acetylgalactosaminyltransferase 11 (3e-129)
Best NR hit (blastp)	PREDICTED: similar to N-acetylgalactosaminyltransferase [Tribolium castaneum] (0.0)
Best NR hit (blastx)	PREDICTED: similar to N-acetylgalactosaminyltransferase [Tribolium castaneum] (0.0)
GeneOntology terms	GO:0004653 polypeptide N-acetylgalactosaminyltransferase activity GO:0005795 Golgi stack GO:0009312 oligosaccharide biosynthetic process GO:0007424 open tracheal system development
InterPro families	IPR000772 Ricin B lectin IPR008997 Ricin B-related lectin IPR001173 Glycosyl transferase, family 2
Orthology group	MCL11158

Nucleotide sequence:

ATGGGTCGGCTTAATTATTCTTTTTGGTGGGGTATATTGTTTGCCTCTTTGACATGGAGT
ATTTCATTATATTTGTATTGGTTGTTAAATATGAGTGGTGACAATAATATAAATAGTACA
GAAAACAGAGTTCAGTACCATCTAATTAATAGAGAAGAAAAGGATCGTGTAAAAAACAAT
GACAAATCTATTGCTGCACTGGAGGGCAAAAATCTTTTATTTGACGGTCCTAGCCCGGGT
AATGATAAATATATTGGCAAAATGTGGAAGTATTCAAGAGATAGGCCTGATTATATTAGA
AAGATGAGGCTTAGGGAGAAATTTACAAAAGAACTTGATAAAGTTGCACAACCAGATAAA
AGTTTGGATTTCGAATTCGGCCTCATACACAATGCTGACGATGTAAGAATTAGGGAAAAA
GGATATAATATGCATGCTTTCAACACATTGATCTCTCAAAGAATTGGTAATCACCGAGGA
TTGCCTGACACAAGAAATAAGTTATGTCGGTCACAAAAGTACCCCGATAAGTTACCTAAG
GCATCCATTATAATTTGTTTCTACAATGAACATTTCGAAACTCTCATGAGATCAGTTCAC
TCCATACTAGATCGTACTGATCTGAAATATCTGAAAGAGATAATTCTGGTTGATGATTAT
AGTGACATAACTGATTTACATGAAGAGGTACAAAAAGCTGTTAATGAGCTAAACGGAAAA
ATGTTGATAACATTGACATCTACCAGGGAAGGGCTCATTAGGGCTAGATTGTATGGTGCG
GATAATAGTGTTGGAGATGTGCTTGTGTTCCTGGATTCTCATATAGAAGTTAATGTTGAT
TGGTTACCACCTCTTCTCACAAGATTATCGGAAGGTGTTGATGGCGTCAATGTGAGATTT
TCTCCTCGAGCTGTCACTCCTATCATAGATGTTATCAATGCTGATACTTTTGAGTATACC
TCAAGCCCTTTGGTTAGGGGCGGATTTAACTGGGGATTACACTTCAAATGGGATAATCTG
CCTAAAGGGACTCTGAAAGATGATGAAGACTTCATTAAACCCATACGATCTCCAACTATG
GCTGGCGGGCTGTTTGCTATTTACAGAGAATATTTTAATAAAATTGGCAAATATGATTCG
GGCATGAACCTGTGGGGAGGTGAAAACTTAGAAATATCTTTCAGGATTTGGATGTGCGGT
GGAGTGTTGGAGCTATGTCCCTGCAGTCGAGTGGGCCATGTATTTCGTAAGAGACGACCT
TACGGCGCCGGCGAGGATTATATGCTGAGGAACTCTATGAGAATGGCTCGAGTATGGATG
GATGAATATGTTAACAAAGTCATAGAGCAGAATCCGTCAGCGGCCCACGTATCCATCGGT
GATATATCGGAGAGGGTTGAGTTGAGGAAGAGTTTAAAATGCAAATCATTTAAATGGTAC
TTGGAGAATGTTTATCCTGAATTGGAGACGGGCGAAGATACGGCAGCGAGGAAGAGAATA
GCGGCTCTGAACGACCCTGAGAAGAACAAGTTTCAGCCATGGCATTCCAGGAAAAGAAAT
TACACCGATTCCTATCAGATACGTTTGAGGAATACTTCATTGTGTATACAAAGCGCTAAA
GACATCAAAAGCAAAGGCAGTCCGCTGTTACTAGCTGGTTGTACGAGAACCATAAATCAG
ATGTGGTTTGAGACTGATCGTGGCGAGCTTGTCCTTGGTCGTACTTTATGCCTAGACGCT
AACACCTCTCCCATAATAGCCAAGTGTCATGAACTGGGCGGCACACAGGAGTGGAAGCAT
AAGGGAACTGCTAATAGTCCCATCTACAATATTGCTATGGGTATGTGTCTGGGAGTTGAA
CGCGCGTACCGCAGCGAACCGATCATGATGGTCATATGCGACAACCAACCAACAAATCAA
TGGGATTTTGTGAGAACTTAG

Protein sequence:

MGRLNYSFWWGILFASLTWSISLYLYWLLNMSGDNNINSTENRVQYHLINREEKDRVKNN
DKSIAALEGKNLLFDGPSPGNDKYIGKMWKYSRDRPDYIRKMRLREKFTKELDKVAQPDK
SLDFEFGLIHNADDVRIREKGYNMHAFNTLISQRIGNHRGLPDTRNKLCRSQKYPDKLPK
ASIIICFYNEHFETLMRSVHSILDRTDLKYLKEIILVDDYSDITDLHEEVQKAVNELNGK
MLITLTSTREGLIRARLYGADNSVGDVLVFLDSHIEVNVDWLPPLLTRLSEGVDGVNVRF
SPRAVTPIIDVINADTFEYTSSPLVRGGFNWGLHFKWDNLPKGTLKDDEDFIKPIRSPTM
AGGLFAIYREYFNKIGKYDSGMNLWGGENLEISFRIWMCGGVLELCPCSRVGHVFRKRRP
YGAGEDYMLRNSMRMARVWMDEYVNKVIEQNPSAAHVSIGDISERVELRKSLKCKSFKWY
LENVYPELETGEDTAARKRIAALNDPEKNKFQPWHSRKRNYTDSYQIRLRNTSLCIQSAK
DIKSKGSPLLLAGCTRTINQMWFETDRGELVLGRTLCLDANTSPIIAKCHELGGTQEWKH
KGTANSPIYNIAMGMCLGVERAYRSEPIMMVICDNQPTNQWDFVRT