MonarchBase - Protein-coding gene

DPGLEAN01519 in OGS1.0

New model in OGS2.0	DPOGS212467
Genomic Position	scaffold1178:- 15765-34908
	See gene structure
CDS Length	1389
Paired RNAseq reads	72
Single RNAseq reads	300
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA009643 (2e-68)
Best Drosophila hit	engrailed, isoform A (3e-29)
Best Human hit	homeobox protein engrailed-2 (7e-24)
Best NR hit (blastp)	invected [Papilio dardanus] (0.0)
Best NR hit (blastx)	invected [Papilio dardanus] (1e-134)
GeneOntology terms	GO:0030528 transcription regulator activity GO:0045449 regulation of transcription GO:0003700 sequence-specific DNA binding transcription factor activity GO:0005634 nucleus GO:0006355 regulation of transcription, DNA-dependent GO:0043565 sequence-specific DNA binding GO:0003677 DNA binding GO:0007275 multicellular organismal development GO:0001708 cell fate specification GO:0030901 midbrain development GO:0009952 anterior/posterior pattern formation
InterPro families	IPR001356 Homeobox IPR019549 Homeobox engrailed, C-terminal IPR009057 Homeodomain-like IPR017970 Homeobox, conserved site IPR019737 Homeobox engrailed-type, conserved site IPR012287 Homeodomain-related IPR000747 Homeobox engrailed IPR000047 Helix-turn-helix motif, lambda-like repressor IPR020479 Homeobox, eukaryotic
Orthology group	MCL23982

Nucleotide sequence:

ATGGCGGCCGTCACCGCACATCTGGATCAGATCAAGATCCAGGATCCTAGCGACGAGGAT
CCAGAGCCGTACTCCCCAAACACCAGAGACACGACCAGCCCCGACTACGAGGAGAAAGAC
AGACCAGTACATTCATCCTCGTTCTCCATCCACAACGTCCTAAAGAAAGAAAGAGATAGC
CCGGAGAATGTGTTCTCCACTGACAAACTGCTGCAGAATACGCCTAATTTCGAGGAAGGT
TCGAGAAATTCCAGTATTAGTCCAAGGTTGGACGATGATCACGAGAGAGCTGATATCAGT
GTTGATGACTCCTGCTGCAGTGACGACACCGTGTTGTCGGTTGGCAACGAAGCGCCTGTG
TTCGATAAGGCACCAGAGGCCCAAGGAATTACCACCTTCAAACACATTCAGACCCACCTA
AATGCTATATCCCAGTTAAGCCACAACCTAACTATGAACCAGCCCCTCCTTCTGCGACCG
AATCCGATAGCACCAAACCCATTGATGTTCCTCAACCAGCCGATGATGTTCCAAAACCCT
CTGATGAATCACGAGCTCAAAGCCAATGTACCTCGAATGCCGATAGCCCAGAACAGCCTG
AACATGAGCCAGTTCAATATAAACTTCGGGAGCAAGTCCCACAAGAGCGACGAGAACCGG
CACCAAAATCAGAACTACTCTCCAAAATCTCCAGACAATGAATCGGAGAGGGACTTCATA
AACCAGAGCTGTCTGAAATTCAGTATAGACAATATCCTGAAAGCTGACTTCGGCAGGCGG
ATCACGGATCCTCTGACCAAGCGAAAAACTTCGAAAGCGAGGCAGTACGAGAAGACCAGC
CCCGTGAAGGAGGTGACTCCAGTGAAAGAAGTGGAGGCGAGGGTCCCGGAAGTAAAGCCA
GCTGATAAGGGCGCGATAGACCTCTCAAAAGCCGATGACAGTGGGAGCAACGCTTCCTCG
ACTCCTGGTACGACTGGTGAAGGTCCCATGGTGTGGCCGGCCTGGGTGTACTGCACCAGA
TATAGCGACAGACCGAGTTCCGGTCCCAGGAGTAGACGGGTGAAGAAGAAGGCGAGCCCT
GAGGAGAAGAGACCGAGGACTGCCTTCAGCGCCTCGCAGCTAACAAGATTAAAGCACGAG
TTCGCGGAGAACCGCTACCTGACGGAGAGGAGGAGGCAGGCGCTGGCCGCGGAGCTGGGG
CTGGCGGAGGCTCAGATCAAGATCTGGTTCCAGAACAAGAGGGCCAAGATCAAGAAGGCC
TCGGGCCAGAGGAACCCGCTGGCGCTGCAGCTCATGGCGCAGGGGCTGTACAACCACAGC
ACCATACCGTTGACGAAGGAGGAGGAGGAGTTAGAGATGAAGGCCAGGGAGAGGGAGCAG
AGGAATTGA

Protein sequence:

MAAVTAHLDQIKIQDPSDEDPEPYSPNTRDTTSPDYEEKDRPVHSSSFSIHNVLKKERDS
PENVFSTDKLLQNTPNFEEGSRNSSISPRLDDDHERADISVDDSCCSDDTVLSVGNEAPV
FDKAPEAQGITTFKHIQTHLNAISQLSHNLTMNQPLLLRPNPIAPNPLMFLNQPMMFQNP
LMNHELKANVPRMPIAQNSLNMSQFNINFGSKSHKSDENRHQNQNYSPKSPDNESERDFI
NQSCLKFSIDNILKADFGRRITDPLTKRKTSKARQYEKTSPVKEVTPVKEVEARVPEVKP
ADKGAIDLSKADDSGSNASSTPGTTGEGPMVWPAWVYCTRYSDRPSSGPRSRRVKKKASP
EEKRPRTAFSASQLTRLKHEFAENRYLTERRRQALAAELGLAEAQIKIWFQNKRAKIKKA
SGQRNPLALQLMAQGLYNHSTIPLTKEEEELEMKAREREQRN