MonarchBase - Protein-coding gene

DPGLEAN12369 in OGS1.0

New model in OGS2.0	DPOGS213248
Genomic Position	scaffold285:+ 157146-196587
	See gene structure
CDS Length	1599
Paired RNAseq reads	381
Single RNAseq reads	899
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA009439 (3e-95)
Best Drosophila hit	Sox102F, isoform B (2e-59)
Best Human hit	transcription factor SOX-6 isoform 4 (3e-53)
Best NR hit (blastp)	PREDICTED: similar to GA10800-PA [Tribolium castaneum] (1e-71)
Best NR hit (blastx)	PREDICTED: similar to GA10800-PA [Tribolium castaneum] (2e-69)
GeneOntology terms	GO:0045449 regulation of transcription GO:0003700 sequence-specific DNA binding transcription factor activity GO:0005634 nucleus
InterPro families	IPR000910 High mobility group, HMG1/HMG2 IPR009071 High mobility group, superfamily
Orthology group	MCL18523

Nucleotide sequence:

ATGTCATCTAAAAGAAAGTCGCCGCCCTCTAAATTGCAAGAAGGTGCTACCGACACAGAG
AAATCGGAAGCCGGACCCGCAGCACTGGAGTTCTCGGATCACCACGAGTCTGACGACAAC
GAACATCAAAACTTCTACAAGTTCTCACCAAGTTCTTCGCCCAGAACTTCTCTCAGCGAA
GGCGAAACCTACGAAGACGAACAGCCGAGCAAAAAACAACGCTTTGATCAATCATTAGAG
ATGACAAATAATCTTCTAGTCCCATCGTCATTCCTCAGTCTGCATCAAGTCAACGATCTC
CAGGCAAGAAGACGTGGCTCCTCAGAATGCAGCAGTCCCGGCGCTGAAAAAGTGCTGGGA
CTTTGCAATAATAACAATTCATTGCTGAATCACAACAGCGCGTTATCGCTCGCACCTCCG
CATAAGCGGTCTATGGACGATGTACTGAAAAGATTAACGTCCAAAATGAATAATAGTACT
ATAAAAGAAGAGAAGAGGCCCACGCCATCCACAACGCCTGTTAAACAGAACAATGACAGA
CGAGGGGTTCTAGACGCAGCGACACTACAGGCTTTGCAGGCGGGAGAAAGTGTCTTAGAG
AAGGAGAGGCAGCTATCCGAGATGATTTTACAGCTGCAAATGGTTCGAGAGCAGCTGTTA
GCGCAGCAGGAACATAATAAGAATATAGGGACGGTTTCCGCTGAGTTGGAGCTCCAGAGA
CTTCAGCAGGAGCATCTCCGGAGACAGGAGCTGGTACGACGAGGTCACTCCTTGTATCCA
GCTCCTCCACTGGCGCTGCTGCCACTGCTGGAACAGATGCGGCCACAACAACCTCAGCCA
AACGTGGTTCAAACTTCGAACTGGCCGGCCACAGCTCAACTGGCACAACTGACTGCCAGC
GCTCGGTCCCCACCTCCTCAAGATCCTGACGCGCCTCTGAACCTCAGCAAACAACGATCA
CCGTCTCCCATGATGATGCCACGCTATGTACCCTACCCCCCAATGGAGGAACAGTATATG
AAGAAAGACGATGACTTCAACAACGCTTGTAACACATCATCCTGGAATCAATCACCGCCA
GAGGAATCCGAAAAGGCTAAGCTCATTCGTCAACCAAAACGCGATGAGTCTGGAAAACCA
CACATCAAAAGACCAATGAATGCTTTCATGGTTTGGGCAAAGGATGAGCGCCGTAAGATT
TTAAAGGCATGCCCGGATATGCACAACTCTAATATATCTAAGATTTTGGGAGCAAGATGG
AAGGCCATGTCCAACGCCGAGAAGCAGCCCTACTATGAAGAACAATCGAGACTTTCAAAG
CTTCACATGGAAAAGCATCCTGATTATAGGTACCGACCAAGACCCAAACGAACATGCATC
GTCGATGGTAAGAAGATGCGGATATCAGAGTACAAAAACCTGATGCGTACACGCAGGCAA
GAGATGAGGCAACTTTGGTGCAGGGATGGAGGTAGTGAACTTAACTTCCTCCCATCCCTG
TCTAGCCCTGGGCCGTCGAATTCCTCTCCTCCGCCGAACGGGGGCAACTATATGAACCCG
GCATTCTCGCCCCCCCTTAGCCCTGGCGAGGAGGATTGA

Protein sequence:

MSSKRKSPPSKLQEGATDTEKSEAGPAALEFSDHHESDDNEHQNFYKFSPSSSPRTSLSE
GETYEDEQPSKKQRFDQSLEMTNNLLVPSSFLSLHQVNDLQARRRGSSECSSPGAEKVLG
LCNNNNSLLNHNSALSLAPPHKRSMDDVLKRLTSKMNNSTIKEEKRPTPSTTPVKQNNDR
RGVLDAATLQALQAGESVLEKERQLSEMILQLQMVREQLLAQQEHNKNIGTVSAELELQR
LQQEHLRRQELVRRGHSLYPAPPLALLPLLEQMRPQQPQPNVVQTSNWPATAQLAQLTAS
ARSPPPQDPDAPLNLSKQRSPSPMMMPRYVPYPPMEEQYMKKDDDFNNACNTSSWNQSPP
EESEKAKLIRQPKRDESGKPHIKRPMNAFMVWAKDERRKILKACPDMHNSNISKILGARW
KAMSNAEKQPYYEEQSRLSKLHMEKHPDYRYRPRPKRTCIVDGKKMRISEYKNLMRTRRQ
EMRQLWCRDGGSELNFLPSLSSPGPSNSSPPPNGGNYMNPAFSPPLSPGEED