MonarchBase - Protein-coding gene

DPGLEAN17712 in OGS1.0

New model in OGS2.0	DPOGS208840
Genomic Position	scaffold209:+ 129347-132362
	See gene structure
CDS Length	1302
Paired RNAseq reads	2252
Single RNAseq reads	6865
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA007946 (1e-175)
Best Drosophila hit	extradenticle, isoform B (1e-146)
Best Human hit	pre-B-cell leukemia transcription factor 1 (1e-118)
Best NR hit (blastp)	AGAP004696-PA [Anopheles gambiae str. PEST] (5e-170)
Best NR hit (blastx)	AGAP004696-PA [Anopheles gambiae str. PEST] (4e-145)
GeneOntology terms	GO:0000060 protein import into nucleus, translocation GO:0001654 eye development GO:0003677 DNA binding GO:0003700 sequence-specific DNA binding transcription factor activity GO:0005667 transcription factor complex GO:0006357 regulation of transcription from RNA polymerase II promoter GO:0007422 peripheral nervous system development
InterPro families	IPR001356 Homeobox IPR009057 Homeodomain-like IPR012287 Homeodomain-related IPR005542 PBX IPR017970 Homeobox, conserved site
Orthology group	MCL10345

Nucleotide sequence:

ATGGACGATCCGAATAGAATGATGGCGCACAGCGGTGGTCTCATGGGACCCCAAGGCTAT
GGTCTTCCTGGCGGCGATGGGGCGCCCGCCACTGGTGAAGGCGAAGCCCGAAAACAAGAC
ATCGGGGAAATTTTACAACAAATCATGAATATTACCGATCAAAGTCTCGATGAGGCTCAA
GCAAGAAAACATACACTGAATTGCCACAGAATGAAACCTGCACTTTTCTCTGTATTGTGT
GAAATTAAAGAAAAAACAGTTTTGTCTCTTCGCAACACGCAAGAGGAGGAGCCCCCAGAT
CCGCAACTTATGCGTTTAGACAACATGCTGATTGCTGAAGGGGTAGCGGGTCCGGAGAAA
GGTGGCGGTGCTGGTGCTGCTGCCTCGGCATCAGCGGCCGCGGGAGAGTGGGATAACGCG
ATCGAGCACTCGGACTACCGCGCGAAGCTGGCCCAGATCAGACAGATCTATCACCAGGAA
CTGGACAAGTACGAGAACGCCTGCAACGAGTTCACCACACACGTCATGAACCTGTTACGA
GAGCAGAGCCGCACCAGACCCATCACTCCCAAGGAAATAGAGCGCATGGTGCAGATCATA
CACAAGAAGTTCAGTTCCATTCAGATGCAGCTGAAGCAGTCCACCTGCGAGGCCGTCATG
ATCCTGCGTTCTCGTTTCCTGGACGCTCGCAGAAAGCGGCGCAACTTCAGCAAGCAGGCG
TCCGAGATCCTGAACGAGTACTTCTACTCGCACCTGTCCAACCCCTACCCCAGCGAGGAG
GCCAAGGAGGAGCTGGCGCGCAAGTGCGGCATCACCGTCTCCCAGCGGAGGAACTTCAGC
AAGAGGGCGCTGGAGTTGCTCAACGACTACTTCTACTCGCACCTCGCCAACCCCTACCCC
AGCGAGGAGGTCAAGGCCGAGCTGGCGCGGCTCTGCGGCATCACCGTGTCGCAGGTGTCC
AACTGGTTCGGCAATAAACGTATTCGCTACAAGAAGAACATCGGCAAGGCGCAGGAGGAG
GCGAACCTGTACGCCGCCAAGAAAGCCGCTGACCTCTCTTGGGCGGGCGCGGGCCGGCGC
GATGCGCGCTCACCTTCGGCCGGACACGCCTCATACAACACAGCGGGGGCGTCACCGTAC
TCGATGGGCGCCGCGTCGGGGACGGCCACCCCCATGATGTCTCCGGCGCCCACGCAGGAC
TCCATGGGGTACGCCCTGCCGGCGGCCGGCTACGACCAGCCTCAACCACCATACGACACC
TCCATGTCCTACGACCCCATGCATCAGGACCTGTCGCCTTAG

Protein sequence:

MDDPNRMMAHSGGLMGPQGYGLPGGDGAPATGEGEARKQDIGEILQQIMNITDQSLDEAQ
ARKHTLNCHRMKPALFSVLCEIKEKTVLSLRNTQEEEPPDPQLMRLDNMLIAEGVAGPEK
GGGAGAAASASAAAGEWDNAIEHSDYRAKLAQIRQIYHQELDKYENACNEFTTHVMNLLR
EQSRTRPITPKEIERMVQIIHKKFSSIQMQLKQSTCEAVMILRSRFLDARRKRRNFSKQA
SEILNEYFYSHLSNPYPSEEAKEELARKCGITVSQRRNFSKRALELLNDYFYSHLANPYP
SEEVKAELARLCGITVSQVSNWFGNKRIRYKKNIGKAQEEANLYAAKKAADLSWAGAGRR
DARSPSAGHASYNTAGASPYSMGAASGTATPMMSPAPTQDSMGYALPAAGYDQPQPPYDT
SMSYDPMHQDLSP