MonarchBase - Protein-coding gene

DPGLEAN02204 in OGS1.0

New model in OGS2.0	DPOGS204459
Genomic Position	scaffold1355:+ 52140-55590
	See gene structure
CDS Length	1320
Paired RNAseq reads	656
Single RNAseq reads	1895
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA007802 (5e-129)
Best Drosophila hit	reversed polarity (2e-26)
Best Human hit	homeobox protein ARX (6e-21)
Best NR hit (blastp)	PREDICTED: similar to conserved hypothetical protein [Tribolium castaneum] (9e-58)
Best NR hit (blastx)	restnal homeobox protein Rx1, putative [Pediculus humanus corporis] (7e-28)
GeneOntology terms	GO:0005634 nucleus GO:0003702 RNA polymerase II transcription factor activity GO:0006357 regulation of transcription from RNA polymerase II promoter GO:0010001 glial cell differentiation GO:0043565 sequence-specific DNA binding GO:0006355 regulation of transcription, DNA-dependent GO:0003700 sequence-specific DNA binding transcription factor activity
InterPro families	IPR001356 Homeobox IPR012287 Homeodomain-related IPR017970 Homeobox, conserved site IPR009057 Homeodomain-like
Orthology group	MCL18493

Nucleotide sequence:

ATGAACTTTAGTAATAATGATGTGGGCGTTCGCACCCTACAACAGTATGGAAAAATACAT
CTCGAATATGTTTGTGGGAATCCCGCATGTGAATCGGGCTCGCGGAGCCCGAGGTCCGAG
GCGGAGAGACGGCGAGGCAGGACGGAGTCCAGCGAGGTTGCCGCTGAGGTAGCGGGTAGT
GCACCCGCCGCCGACGGCTACATGTACGTGTGCGGGGAAAGCGGCGCTGGGCCGCGGTAC
GAGTGCGCCTTCGACGGTGGCATGGAACAGCCCTTCGACGAGCACATGTTCAGCGAGTTT
GGCAAGGAGAGACAGGTGCAGGTTGTTGTCGGAGCCAGCGGGGAACTGCAGTACCGTGAC
GAGCTGCCGGTGTATGCAACGGCTGAACAAAAACGGAAGGACGAACCGCTCCTGCTGCAG
GCGGTAGAGGTTCAGCCTTCCCAGCACTCCCAGCATGTCCCAACAACTACCACAACCACG
ACAACTTCAAAGAAAAGCGACAAAAAGAAAAGTGACAATAACGGCATTAAAAAGAAAAAA
ACGAGAACTACTTTTACTGCCTATCAGTTGGAAGAATTGGAAAGAGCCTTTGAACGTGCT
CCATATCCTGATGTGTTCGCCCGAGAGGAACTAGCTCTGAAGTTGAATTTATCCGAATCA
AGAGTTCAGGTTTGGTTTCAAAACAGAAGAGCGAAATGGCGTAAGCGTGAACCACCAAGA
AAGACAGGATACATAGGATCCAGCTCACCGAGTTCTACCACATTAGGTGGTGGCTTTTCG
GGTATCGGAGGCAACTTGCCAGCATTCCCTCAAAACGGCTTACCAGCACCTTCAGATTCT
TGGTCCTACCAACACTCGTACGAACTGTCATCACATCATTTACTGTCTTCGGGCAGTAGT
GGTTATCCCGCTTTCAACACGCAACCGGCTTATTCTTATACCACAGTGCTGAACGGACAT
GACGGACAAATGTTCGCGCCACGGCATTCATACGAGTACGGAGAGGGCAGCCCGCCCCCG
CTAGGCGTACGTGACTATCCCATGATTGCTTCACACTCCCCGCAGATGGAAACCCACGGG
CACGAAGACAAATTAGAATACCGTGGCCATGAACACGAAGACAAATATTCAGCGTGTGCC
TTACAAGAGGAACCGCCGCGGTACACCTCCCCACCCGAAGATTATGACAAATGTAATATG
GTGCCTCATGACAAACATTACGAAATTGATCGCCACTCTGAACTAGCACAGCCTGTAGTA
GTCAAAATGGAACCCAGCCCCGGCCAAGCATACACGTCACTGCCCCCTTTTTTGAATTGA

Protein sequence:

MNFSNNDVGVRTLQQYGKIHLEYVCGNPACESGSRSPRSEAERRRGRTESSEVAAEVAGS
APAADGYMYVCGESGAGPRYECAFDGGMEQPFDEHMFSEFGKERQVQVVVGASGELQYRD
ELPVYATAEQKRKDEPLLLQAVEVQPSQHSQHVPTTTTTTTTSKKSDKKKSDNNGIKKKK
TRTTFTAYQLEELERAFERAPYPDVFAREELALKLNLSESRVQVWFQNRRAKWRKREPPR
KTGYIGSSSPSSTTLGGGFSGIGGNLPAFPQNGLPAPSDSWSYQHSYELSSHHLLSSGSS
GYPAFNTQPAYSYTTVLNGHDGQMFAPRHSYEYGEGSPPPLGVRDYPMIASHSPQMETHG
HEDKLEYRGHEHEDKYSACALQEEPPRYTSPPEDYDKCNMVPHDKHYEIDRHSELAQPVV
VKMEPSPGQAYTSLPPFLN