MonarchBase - Protein-coding gene

DPGLEAN04161 in OGS1.0

New model in OGS2.0	DPOGS211665
Genomic Position	scaffold1662:+ 27725-38724
	See gene structure
CDS Length	2316
Paired RNAseq reads	801
Single RNAseq reads	2032
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA001365 (1e-07)
Best Drosophila hit	GalNAc-T1, isoform B (1e-109)
Best Human hit	polypeptide N-acetylgalactosaminyltransferase 1 (4e-75)
Best NR hit (blastp)	GE11714 [Drosophila yakuba] (9e-117)
Best NR hit (blastx)	GG20529 [Drosophila erecta] (9e-114)
GeneOntology terms	GO:0004653 polypeptide N-acetylgalactosaminyltransferase activity GO:0009312 oligosaccharide biosynthetic process GO:0005795 Golgi stack
InterPro families	IPR000772 Ricin B lectin IPR001173 Glycosyl transferase, family 2 IPR008997 Ricin B-related lectin
Orthology group	MCL15879

Nucleotide sequence:

ATGAAATTGCCGCTTCGTAAGTGCTATCATGCGGCAAAAGTGGGTTTATTTCTGTTAATA
GTGGTCACAATTTTGGCTCTATATGAACAATGGAGAGGAGGAAAACGCTCAGCCCGCGCT
GAAACCTATGACTCGGAAGACAAATATGAGAAAGAGATTTTGGAAGACGAAGCGCGTATT
ATTCCTGGCCTAGGTGAAGGCGGCGTCGCAGCATATTTGACTGGTGAAGCGAAACGCCTC
GGGGAGGAATCCGAGAAGAAACTCGCTATAAATGTTTATTTGAGTGACCGTATCGCCTAC
AATAGAACTTTAAAAGACTATCGTAATCCGGCATGCCAAAGAGTCATTTATGATGCTGAG
CTGCCGTCAGCTTCGGTGATATTAATATTCCACAACGAACCCTACTCTGTGGTCATCCGC
ACTATATGGAGCGTCGTGAACAGCGTGAGACGGACTAATCCTTGGTTTGCGAAGGCTAAC
GATATTGACCGAGAGTCCAGCCGGACTATGACAATGGGCTACCCAGGTCAAGACCCTTCC
TCTCCATTCGTTTATCTCAAGGAGATCATTCTGGTGGATGACAAATCCACCCTTCCCGAG
CTGAAGGGCAAACTGAGTCACTATGTGAGGACTCGTCTACCACCTGACCTGATACGGATA
TTGAGACTGCCGCAGCGGGTGGGTCTTACGAGGGCACGCTTAGCCGGAAGTGAGGTGGCC
GGTGGTGACGTCATGGTATTCCTTGACTCACACACGGAACCAGTGACGGACTGGCTGAGG
CCCATCCTGCAGAGGATAAAAAACGACACGACCGTGGTCGTGACCCCCATCATCGATGTC
ATAGAGCAGGATACCTTTGAATATAAGACGGGGAATCGCAATGACTTCGAGGTGAATCAT
GTTCCTGGTGACACGTCTACACTAGAAGGGGTAGATGTAGGACGAACTGAAGTCGTGGGT
CTGACCCGGGCGCGGCTAGCTGGGGCTAGATATGCCACGGGCGATATCCTAGTGTTCCTA
GACTCGCACTGCGAGGTGCAAGAGGATTGGCTGAGGCCTCTCTTACAAAGGATCCGGGAC
TTCCCCCACGCGGTGGTCGTCCCCATCATTGACGTCATCGAGTCCTCCAACTTCTACTAC
AGCGTCCAAGACCCCGTGATATTCCAGGGTCTTATCCTGGCTCGTATATCCGGTGCCCGT
ATCGCCCGCGGGGATGTGTTGATCTTCCTCGACTCCCACTGCGAGGTGAACGTCGACTGG
CTCAGACCCTTGCTGCAGAGGATCTCACACAAACGTGACGCAGTCCTGACACCGCTCATC
GACGTCATCGACCAGTCCACCTTCGAACTGGAGGCGGCCCAGCAGTTTCAGGTAGGTGGT
TTTACCTTCATGGGACACTTCACATGGATCGAGGTTCCAGAGAGGGAGAAAAGGAGACGC
GGATCAGACATAGCGCCGACGTGGTCACCAACTATGGCGGGAGGTCTGTTCGCCATCAAC
CGACAGTACTACTGGGAGCTGGGAGCGTATGATGAGCAGATGGCTGGGTGGGGGGGCGAG
AACCTGGAGATGTCGTTCCGGATATGGCAGTGTGGTGGCACGCTGGAGACGGTGCCGTGT
TCTCGCGTGGGTCACGTGTTCCGAGCCTTCCATCCTTATGGGCTGCCAGCTCACACAGAC
ACACACGGCATCAACACGGCTCGCATGGCCGAGGTGTGGATGGACGAGTACGCTGAGCTG
TTCTACCTGAACCGACCCGACCTCAGGAAAAGTCCCAAGATCGGTGACGTCACGCACCGT
AAGATCCTCCGGGAAAAGCTGAAGTGTAAGAGCTTCCAGTGGTACCTGGACAACATCTAC
AAGGAGAAGTTCGTGCCTGTCAGGGATGTCTTTGGATACGGGAGGTTCATGAATCCGTCC
TCGGCGATGTGTCTCGACACTCTTCAAAGGGAAGGTGAAGCGACAGCCTTAGGTCTGTAT
CCGTGTCACAGTCGCCTGGAGCCCACGCAGCATCTAGCGCTGTCCCTCGCCGGGGAACTC
CGGGACGAAGAGAAGTGCGCCGAAGTTCAAAGTCCAGTGGGTTCCAACGAGAACGTCAGC
AGGAGAGTGTTGATGGTCACCTGTCACGGAAAACATCGAGGCCAGCACTGGCGATATCTG
CCGACACAACAGATCCAGCATACGGAGAGCGGCCTCTGCCTCCACAGTACAGGCATCTCG
GGGTCTGACGCTCTGGTGATGCGATGCAGAGCTGGCGGCGCGCAGGTGTGGGTCATCGAT
TACAGCGAGATCAATGATTTTAGAATGAACGGTTAG

Protein sequence:

MKLPLRKCYHAAKVGLFLLIVVTILALYEQWRGGKRSARAETYDSEDKYEKEILEDEARI
IPGLGEGGVAAYLTGEAKRLGEESEKKLAINVYLSDRIAYNRTLKDYRNPACQRVIYDAE
LPSASVILIFHNEPYSVVIRTIWSVVNSVRRTNPWFAKANDIDRESSRTMTMGYPGQDPS
SPFVYLKEIILVDDKSTLPELKGKLSHYVRTRLPPDLIRILRLPQRVGLTRARLAGSEVA
GGDVMVFLDSHTEPVTDWLRPILQRIKNDTTVVVTPIIDVIEQDTFEYKTGNRNDFEVNH
VPGDTSTLEGVDVGRTEVVGLTRARLAGARYATGDILVFLDSHCEVQEDWLRPLLQRIRD
FPHAVVVPIIDVIESSNFYYSVQDPVIFQGLILARISGARIARGDVLIFLDSHCEVNVDW
LRPLLQRISHKRDAVLTPLIDVIDQSTFELEAAQQFQVGGFTFMGHFTWIEVPEREKRRR
GSDIAPTWSPTMAGGLFAINRQYYWELGAYDEQMAGWGGENLEMSFRIWQCGGTLETVPC
SRVGHVFRAFHPYGLPAHTDTHGINTARMAEVWMDEYAELFYLNRPDLRKSPKIGDVTHR
KILREKLKCKSFQWYLDNIYKEKFVPVRDVFGYGRFMNPSSAMCLDTLQREGEATALGLY
PCHSRLEPTQHLALSLAGELRDEEKCAEVQSPVGSNENVSRRVLMVTCHGKHRGQHWRYL
PTQQIQHTESGLCLHSTGISGSDALVMRCRAGGAQVWVIDYSEINDFRMNG