MonarchBase - Protein-coding gene

DPGLEAN18506 in OGS1.0

New model in OGS2.0	DPOGS201541
Genomic Position	scaffold570:+ 16353-24874
	See gene structure
CDS Length	3423
Paired RNAseq reads	1681
Single RNAseq reads	3791
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA002718 (4e-149)
Best Drosophila hit	CG5288, isoform C (8e-89)
Best Human hit	N-acetylgalactosamine kinase isoform 1 (4e-92)
Best NR hit (blastp)	AGAP005012-PA [Anopheles gambiae str. PEST] (1e-115)
Best NR hit (blastx)	PREDICTED: similar to AGAP005012-PA [Tribolium castaneum] (8e-110)
GeneOntology terms	GO:0006012 galactose metabolic process GO:0046835 carbohydrate phosphorylation GO:0008152 metabolic process GO:0000166 nucleotide binding GO:0005737 cytoplasm GO:0004335 galactokinase activity GO:0016740 transferase activity GO:0005524 ATP binding GO:0016301 kinase activity
InterPro families	IPR014721 Ribosomal protein S5 domain 2-type fold, subgroup IPR000705 Galactokinase IPR019741 Galactokinase, conserved site IPR006203 GHMP kinase, ATP-binding, conserved site IPR020568 Ribosomal protein S5 domain 2-type fold IPR000649 Initiation factor 2B-related IPR019539 Galactokinase galactose-binding domain IPR013750 GHMP kinase, C-terminal IPR006204 GHMP kinase IPR006206 Mevalonate/galactokinase
Orthology group	MCL12569

Nucleotide sequence:

ATGAGCGAAGGTAAAGATAATTTAGTTCCAGTAATAAAAGTGCCAACAGATGAAAGAAAG
CTAAATTTAAGTAAGCATTTTTATAATGAATTTGGTTGTCAACCTGAATTTATCGTCAGA
GTTCCAGGACGAGTTAATTTAATTGGTGAACATATTGATTACTGCGGCTATCCGGTGCTG
CCGATGGCATTGGAACAAGATATTCTTCTGGCTGGCAGTTTAATTAAGGAGCATAAACTT
TTGATGCGTAATACTAATTCAAAATATGAAAATTTCGAGACGGAATTAAAATCGTTCAAT
GAAATCGTCATAACACCGGATGCTAACGGCAAACCGTATTGGTATAATTACATGCTTTGT
GGTATCAAGGGGGCCTTAGAACATTTAAATAATGAAGTATTGTATGGCTTAAATATGTAC
GTAGACGGTAACATTCCTCCCGCGTCAGGATTATCGAGTTCCTCGGCTTTAGTCAGCGCA
GCATGTCTTGCGTTCCTTTACGCCCAGAAGGCGGTTTTAAATAAAATTGACATAGCTGGT
TTGTGCGCACGATGCGAAAGATATATAGGAACCCAAGGCGGTGGAATGGATCAAGCAATA
GCTTTCCTTGCAGAAAAATATTGTGCCCAATATATTACATGGAATCCAACGAAGGCGACA
AAAGTTGTTTTACCGGAAGGAGCCTCGTTTGTTGTGGCTCATAGTTTAGCTGAGGTCAAC
AAAGCTGCTACCAATGATTACAATAGACGAGTAGCGGAATGCAGGCTTGCTGCAAAGCTT
TTATCTTTGTCCATACAAACAATGAGTCACACCGTCATCACTTTGGGACAAGTACAAAAA
CTACTAAATAAATCATTAGAAGAAATGATTGCCCTTGTTAAAGAAACACTGCCTAAAGAT
ATTTACACAAAAGAAGAAATTTGTGCTATATTAAATGTCAGCACAGATGAACTAGATAAT
TTTTATTTAACACCAAATACAAAGCAATTATCGGAATTTAAGCTCAAGCAGAGAGCTCTT
CACGTTTATGAAGAAGCAAGGAGAGTAGAAGATTTTAAAAAAATATGTGAAAAGACAAAC
AAATGTCTGAACGGAACAAATGGGACAAGTTCAGTTAAGGAAGACATCAATACATTGGAA
AGCTTAGGGAAGCTCATGTCAGAAAGTCACGAAAGCTTAAAAAACCTTTACGAATGTTCC
CATGAGAATTTAGATCGTCTGGTAGACATTTCATTTCAGATGAATGTCCATGCGAGACTT
ACCGGAGCAGGCTGGGGTGGATGTATAGTAGCTTTGTGTCCCAGAGAAAAAGTTAAGGAA
TATATTGAAGCTTTGGAAGACGAATTTTACATAAAACATTGCAATATTGATAAAAGCAAA
GCCAATTCTTATGTTTTTGCAACATCTCCAAATTTTGGTGCTGAAAGTAACCAATCGGAA
CCTAAAACTGAAATTACTGCTGCCAAAAAGAGAAGGATCAGACGGAAGAGATTAAGAGCA
GCAAAACAATATAAGGAAGTGCAAAATAATATCTGTTACTGTGTAGCAATTAATACAAAT
AAACAAACAAATTCAATTGACTTACGGCAGACTAATTCTACTACTGATCTTGATAATAAT
ATTCTGAATAAGAGCACTGTTACAGAAAATAAATCAGTTAGTGACATCAAGGACAGTGTT
AGAGGAGCTATCGAAATGTTGAAGGAACAAGAAAAAAGTAGAGATGAAGTTCTAGCGGCC
AGAGAAGCTAAGAAGTTAGCAAAACTGAAAGCTAAAAAGAAAAATGAGGATACCGGAAAT
AGCGTCACAAAAACACAGGACACACCAAAACAGGGGAAAAATGAAAAGAAAAATGATAAA
GTTGAAGGACAAACTTCGCATACTGAAACAAAAATTGACAATTCTCCTAATAAAGATAAA
GATGAAGTGGACAGAGCTGTTATAATTGATAATGAAGCTAAAGAAAATGTCAAAGAAAGA
GAGATTGTTTTGGCTCAAAGAGCAGCTAAGAAATCACTGAAGGGTAAAAAGATTGATATG
CCGAGTGAGCAAGTCATAAATGCGACCGTTAATGATGTAGTGAATACACTCAAAGATATC
GTGACAGTCGCCAGAGAAGTAAAGGAGGTTACAGACAAAGTCAAAGCTATAGATTTAGGT
AAAAAGTCCGAAGAATCACAGAAAAGCAAAGCAGAATTGAAAGCTGAAAGGCGTGCTAAA
CAAGAAGCCCAGAGAGCAGCAAAACAAAAAGAAATTGAAGCTAAGGCCAAGAAGACAGCT
GAACCACCAAAACCTAAAGAGGAAAAACCTGTAAAGACTAAAGTTCCAGAAAAACCGAAA
CCAAAGATGCAAAAGATGAACTGGTTCCAGAACGTTCCTATGGAACACGAGAAAGAAGCT
CTGAAGAAGATAGCTATAAATTCAAACTTGCATCCAGCCGTTATAAAGCTGGGAGTACAG
CTGGCGTCGCGGGTCGTGACCGGATCTAACGCCAGGTGTATAGCATTTCTGGATGCTTTA
AAGAAGGTGGTGAGAGACTACAGTCTGCCCGCTAAGACTGAGTTCGCTCGTGGTCTGGAA
TCTCAACTGGCCGCATGTGTCGACTTCCTGTGGTCTATGAGACATCCGGCCGCCTCGCAG
ACAAACGCACTCAAACATTTCAGACATCACCTAACACAGCTGCCGAATAATGTGGACGAA
TTTGATGCCAAGAAACGTCTCCAGGAGGAAATAGACCGTTACATCCGGGAACAGATCGAC
ATGGCGGGTGAAGCGATCAGCATCGCAGTGAGGAACAAAATAACACCCGGGGATACCATA
CTCACATACGGCTGGGTTCATAAAAACCGCCCAAAAAATTCGTCTCTGATCGAGCGTATC
CTGTGCGAGGCTCATGCAGCCGGGGTCTGTTTCTCTACGGTGGTGGTCGGCGAGAGAGGG
AACCGCGGCCCAACAGAGATGCTGCGACGACTCGCCACTAAAGGACTCAACTGCGTCTAC
GCCGACCTATCAGCGCTGAGCTACGTCATGAAAGAGACGGACAAGGTTCTAGTTGGTGCG
GCGTGTCTGTTAGCCAGTGGCGCGGTGGTGGGGGCCGCGGGGACCCTTCAGACTGCGCTG
CTAGCTAAAGCAAACAACGTACCGCTTCTGGTTGCCTGTGAGACGCACAAATTCTCTGAC
ACCGTCCACACAGACGCTATGATCTACCATGAGACTGGTGATCCGGAAGATTTGATTGAT
AAAACTGACGAAAATTCACCCCTTAAAGACTGGCAGTCCAATCCAAACTTGAATTTGTTA
AACCTAACGTATGACGTCACACCGCCCAGCCTCGTGACAGCTGTAGTGACGGAATTAGCG
ATCTTGCCATGTACGAGCGCTCCCGTTGTACTTAGATTTAAATTATCCGAATACGGTATA
TAA

Protein sequence:

MSEGKDNLVPVIKVPTDERKLNLSKHFYNEFGCQPEFIVRVPGRVNLIGEHIDYCGYPVL
PMALEQDILLAGSLIKEHKLLMRNTNSKYENFETELKSFNEIVITPDANGKPYWYNYMLC
GIKGALEHLNNEVLYGLNMYVDGNIPPASGLSSSSALVSAACLAFLYAQKAVLNKIDIAG
LCARCERYIGTQGGGMDQAIAFLAEKYCAQYITWNPTKATKVVLPEGASFVVAHSLAEVN
KAATNDYNRRVAECRLAAKLLSLSIQTMSHTVITLGQVQKLLNKSLEEMIALVKETLPKD
IYTKEEICAILNVSTDELDNFYLTPNTKQLSEFKLKQRALHVYEEARRVEDFKKICEKTN
KCLNGTNGTSSVKEDINTLESLGKLMSESHESLKNLYECSHENLDRLVDISFQMNVHARL
TGAGWGGCIVALCPREKVKEYIEALEDEFYIKHCNIDKSKANSYVFATSPNFGAESNQSE
PKTEITAAKKRRIRRKRLRAAKQYKEVQNNICYCVAINTNKQTNSIDLRQTNSTTDLDNN
ILNKSTVTENKSVSDIKDSVRGAIEMLKEQEKSRDEVLAAREAKKLAKLKAKKKNEDTGN
SVTKTQDTPKQGKNEKKNDKVEGQTSHTETKIDNSPNKDKDEVDRAVIIDNEAKENVKER
EIVLAQRAAKKSLKGKKIDMPSEQVINATVNDVVNTLKDIVTVAREVKEVTDKVKAIDLG
KKSEESQKSKAELKAERRAKQEAQRAAKQKEIEAKAKKTAEPPKPKEEKPVKTKVPEKPK
PKMQKMNWFQNVPMEHEKEALKKIAINSNLHPAVIKLGVQLASRVVTGSNARCIAFLDAL
KKVVRDYSLPAKTEFARGLESQLAACVDFLWSMRHPAASQTNALKHFRHHLTQLPNNVDE
FDAKKRLQEEIDRYIREQIDMAGEAISIAVRNKITPGDTILTYGWVHKNRPKNSSLIERI
LCEAHAAGVCFSTVVVGERGNRGPTEMLRRLATKGLNCVYADLSALSYVMKETDKVLVGA
ACLLASGAVVGAAGTLQTALLAKANNVPLLVACETHKFSDTVHTDAMIYHETGDPEDLID
KTDENSPLKDWQSNPNLNLLNLTYDVTPPSLVTAVVTELAILPCTSAPVVLRFKLSEYGI