MonarchBase - Protein-coding gene

DPGLEAN02240 in OGS1.0

New model in OGS2.0	DPOGS206778
Genomic Position	scaffold922:- 3854-21744
	See gene structure
CDS Length	918
Paired RNAseq reads	38
Single RNAseq reads	119
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA010695 (4e-56)
Best Drosophila hit	drop (1e-34)
Best Human hit	homeobox protein MSX-1 (4e-29)
Best NR hit (blastp)	hypothetical protein TcasGA2_TC012748 [Tribolium castaneum] (2e-58)
Best NR hit (blastx)	hypothetical protein TcasGA2_TC012748 [Tribolium castaneum] (5e-42)
GeneOntology terms	GO:0003700 sequence-specific DNA binding transcription factor activity GO:0005634 nucleus GO:0003677 DNA binding GO:0007450 dorsal/ventral pattern formation, imaginal disc GO:0007476 imaginal disc-derived wing morphogenesis GO:0042659 regulation of cell fate specification GO:0007419 ventral cord development GO:0007517 muscle organ development GO:0045449 regulation of transcription GO:0007399 nervous system development GO:0009953 dorsal/ventral pattern formation GO:0007400 neuroblast fate determination GO:0006355 regulation of transcription, DNA-dependent GO:0043565 sequence-specific DNA binding GO:0007420 brain development GO:0007398 ectoderm development GO:0007417 central nervous system development GO:0007389 pattern specification process GO:0035309 wing and notum subfield formation GO:0035222 wing disc pattern formation GO:0021782 glial cell development
InterPro families	IPR009057 Homeodomain-like IPR020479 Homeobox, eukaryotic IPR001356 Homeobox IPR012287 Homeodomain-related IPR017970 Homeobox, conserved site
Orthology group	MCL18013

Nucleotide sequence:

ATGAAGACTTCGCTTGAATGCGAGCGGTCCGAGGCCGCTGAGAGCGGTAAGGGTCGTATA
TCGTTTAGCGTAGATGCCTTACTTGGCAGCAAGAGCGACACGACCAGAAACACGCCTGAC
GCAGTCAGCAATGACGCCGAGAGCGCTGTTGAATCTGACGATAGTGACGTTGATATAGAA
GACGTCGAGTCTAATGTCGGTGATGACAGGGATGACAGAGAAGCGAACGATGATGATGAA
GCCAGGAGCGGGGTGGTCGTACCACAGCCCCTCCTGCCAAGGATCTACCAGGGGCCCTCG
CACGCCTGGCCGTTTGGAGCCTTCCCATGGATGGCGCCCAACCCTATGTTCAGGGCTGGC
TCTCCTAACGAGACAAGTTGCTCGTGCTTATACGGAGACGAACCGCTCGGGGTTCCTCCT
CCAGATATCAATGGGTGGTCACAGAGGTCTCCCACATATAAACCATTGATGGACGTTTGT
CTTTCAGCAGGAGCTCCGAGCGGTCCGCCCGTAGTCCGCTGTCAGTTAAGGAAACACAAG
CCCAACAGGAAGCCGAGAACACCGTTCACAACACAGCAGCTCCTGGCCTTGGAGAAGAAG
TTCAGGGACAAACAGTACCTGAGCATCGCGGAGAGAGCTGAATTCTCATCGTCATTGAGA
CTGACGGAAACTCAGGTGAAAATATGGTTCCAAAACCGGCGAGCGAAAGCCAAGCGTCTA
CAGGAAGCGGAGATAGAAAAACTTCGTCTCTCAGCTCGTCCTCTCCTACCGCCTTCGTTC
GCGCTGTTCGGAGGTGGAACACCACCACTGTTCGCCGCCATGGCCGCGGCGAGACCGCAG
CTCAGCTTCCTGGGCGGCCCGCCCACGCACCAACACGCCATCAACATGAACATACTCAAC
TCCCTCCAACCGCATTGA

Protein sequence:

MKTSLECERSEAAESGKGRISFSVDALLGSKSDTTRNTPDAVSNDAESAVESDDSDVDIE
DVESNVGDDRDDREANDDDEARSGVVVPQPLLPRIYQGPSHAWPFGAFPWMAPNPMFRAG
SPNETSCSCLYGDEPLGVPPPDINGWSQRSPTYKPLMDVCLSAGAPSGPPVVRCQLRKHK
PNRKPRTPFTTQQLLALEKKFRDKQYLSIAERAEFSSSLRLTETQVKIWFQNRRAKAKRL
QEAEIEKLRLSARPLLPPSFALFGGGTPPLFAAMAAARPQLSFLGGPPTHQHAINMNILN
SLQPH