MonarchBase - Protein-coding gene

DPGLEAN17765 in OGS1.0

New model in OGS2.0	DPOGS205585
Genomic Position	scaffold2093:- 162-18276
	See gene structure
CDS Length	3423
Paired RNAseq reads	2300
Single RNAseq reads	5695
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA009749 (4e-10)
Best Drosophila hit	toutatis, isoform E (1e-21)
Best Human hit	bromodomain adjacent to zinc finger domain protein 2B (8e-22)
Best NR hit (blastp)	PREDICTED: similar to Toutatis [Tribolium castaneum] (2e-82)
Best NR hit (blastx)	hypothetical protein AaeL_AAEL002037 [Aedes aegypti] (2e-32)
GeneOntology terms	GO:0008270 zinc ion binding GO:0005634 nucleus GO:0006355 regulation of transcription, DNA-dependent GO:0003677 DNA binding GO:0030528 transcription regulator activity GO:0046872 metal ion binding GO:0005515 protein binding
InterPro families	IPR016177 DNA-binding, integrase-type IPR001739 Methyl-CpG DNA binding IPR004022 DDT domain
Orthology group	MCL12882

Nucleotide sequence:

ATGGATAAGGAGAACGGCGAGGATCCGGCTGCGAAGCCGCCTCCTGATGGCCTCCTCGAC
CCATCAGGACTCTTCGGAGCGTACTGGGGTCGCGAGGGAGCGTCCGCTGCGCAGGCGCAG
GCTCAGGCCCAGGCCGCTCTGTTTGGTTTCGGATCGCGGTACCCCCCGCCCACAACACTC
GGGGTCGCCGCTAACCAGGCCGCCTCGCTCAGCTTACACCCCGCAGCCAGTGCGGCATGG
TGGTCGATGGCGTCCCACCTCGCGGCTCAGGACTACCTGGCGCGGTTACAGGCATCCGGT
CTAAGTTTCCCACCACTCGGTGACCCCTACGCCGCCCTATCAGCGCTCGCTGCCGGCAAG
CACAAACAAAAGACGCAACGGAATGACGGGTCTGGCCGTGGGTCGTCCGCCAAAGAGAAG
CCTCCAGCTACCAGCACCAGCTCTCAACCGACCATTCCTGACTGGGGGTCATCGTACGGA
TTCCCTCCATCATCAACGCCGTCTGGGTCGCTGTCATCGTTGGCGTCTCTCAACAGTCTC
GCACAACAGCCACACTCCAAGCACAAGCCGCCCACTAATAGAAAAAGTTCGAGTGCCAGT
AAAGAGAAGGAGTCCAGGGATTTAATGCTGGCACATTCAGCGTATCACGCAGCACTCACT
AAGGGAAAGGGTATGTCCTCGTTGTACCCGTTCGGGACTCCTGACAAGGACCGCCGCGGC
ATAGATTCCTTCACGGGTTTGCCGCACACCATACTCAGCGATCCCTCGTCGGTGCTGGGC
GGGGTTCGGCTGCCTCCGGACACAGAGATCATTAAATATACCTCGTCTCTAGCGGGGCCC
AAGCTCGCGCCGGGGTCAACGACCCGTGGCCGAAAGAAAACCATCTCATTGGACCCGCCG
CGGGTGTCGGTGCACCCGGCGTCACCCGCCGCGCCGCCCACACCCAACAAGAGACAAAAA
GTGGACGAATTCGGCAACTCCCGTTCGTCGGTGGAGGTGATCCGCCTGCCCAGCAAGCCG
GACAGGAACAACGTGCCCACGCCGCCGCCCAACCTGTCGGACTACGCCGGTATATCACGG
GAGTTACTACAAACTATCGCCAGCCAGAGCGGAGTGAGTCTAGCGGCGTTGGAGAGGCAG
CTGCAGCCGGCTAACAACGAACCAGGTCTCAACCTGAGCACGAAATCCGCGAACAACTCC
GAGGACACGCCGCTAGACCTGGGCCTCAAGGACGAGGACACTCCGCTGAACCTCTCTCTT
AAACCCACACCTCCTCGCCGCAAGCCCGGGGCCAAGCCGCGCCGTGTCGCGCCTGACGCT
CACGACTCGCCGCGACCCAAGTCCAGTGGCAGTGAGGATAGCGAGTCTCTCCCAACATGG
CCGTCGAGAGAAGGTCGTCCGCGGAACCTCGGGAGAGGAGTCAGCAAGCCCAAGAAGAAT
ACGGTAGCGTCCCTCCTCGCCCAGAGCAGAGCCCTGGGACTCCGCCCCGCGCTTGCCCAG
CAGCTCCTGGCGGAGACAGACATAGACAAGTTGCGTGTTCTGCTGGGCGAGACTGCCAGC
ACGGACTCCGAGTGCCCTTCAGACTCGAACCCCTCAGACTCGGACACCTCGGACGGGGGC
AAGAGAAGCAACGACCCGCAGCTGAGGCTACCCCTGGCACTCGGCTGGAAGCGAGTAACT
GTCATCAAGGGTCTGTCTCGTAACTGTAACATAAAGGGGGACGTGAGCTACACGCCGCCC
GAACCCAACACCGGCATCACTATCAGGACGGCGGACGAGCTGAACGCGTTCTTGGAGTCC
AACCCCAGCGCGCCGCTATCCCGGGACTCGTTCAGCTTCAGCGCCCGCGTGTTGCTGGGG
GAGTACGTGCAGCACACCCACGAGGAGCCTGTCGTCATGACCGAGACCGAGATCACTAAA
CGGTTAGAAGAAGCTCGAGCTTTGGCGGCCCTGAGTGGACGACCCACCCCGCCTCCCCTG
GAGCGCCGCATGGAGCTGGCGAGGAGGCAGCAGGCCGCCAGGGACGCGAGGAGAGACGGC
AGAGGCAGGGACCAGGCTCGTCTAGTCAGGGAAATAGAGAGATCCGAGAAGGCGGAGGTA
GTTAAAAGAGAAAAGGAGACTCGGAGTGCACAGCTACTAGAGCAAATCAACAAGAGCAGA
TCGCAGCTCACGATCGAGGCTTTGCCGCAAAAGCATACGGACGAATGGAAAATACCAGAG
ATCGGGCCGGTCGTGAAAAACAGAGACAAAACGATGCCCCAGATAAGCCTGTCCCTCATA
CCGGTCAGCGGCCTGAAAGACAGCCCCATAAAGACCCTGAACTTGGACCAGAACTGGAAA
GGAGAACTCGAGGAGTACAATGCGCTGGATAAGATGAAAGACTTCGCTGAGAAGGCGTCC
TTCGACCTACCGAAACGTCCCAACGACAAATACTTTGACTTCAGCCTGACCAAAACCCCG
GACAAAAGAAAGGCTCCAGACAAAGAAAACAATCTAGACAAACTTATAGAATCATATTCT
AGGATAACGGAGTTCATAAACGGCTGTGATTGGTCGAAATTGAGAGGCGACAAAAAAGCC
GACGACCCAAAGAGCTTGGAACAGAAGTATCTGGACGCCAAAAACGAGTTCATGTCACAG
AACCTGATGCTGATGCCCAAAGACGGACAGAAATCGGTTCTGAAGGAAGTGATAGATCTC
AGCGGGGATGACGATATACTGAAAGACATTATAACCAAAAAGATAAACAGAGGAACGTTC
CATGTGGGGAAAGACGGAGCTTTATCGATATCGGTACAGCCGTGCAAGGACGCGAGTCCG
GCTAAGAAGAGAAAACAAGAGGAGTTGGAGAAGCAGAAAATGGAAGATCAGGCGAAGAGG
CAGCAGGAGAGAGAAATCAAACGTCAACAGGCGATGCTCCTTAAAGAGCAGGAAAGAGAA
AGAAGACGACAGCACACAGCGTTCATTCGTCAGCTGGACGCGAGGAGACGCTGGGAGGAT
CGCGAGAGAAGAAAACATCAGAACCTCCTGGATAGACTTCTGGCTAAAGAGAAGAAGCTG
CAGCAGAGAAGGAAGGAAATGGAATTACTAGCTGAGTTAAGACGTCCTCAAGAAGACTCG
TCTCTATCAGATCACAAGCCGCTCCCCAAGTTAGACCGTATCCCAGGTCTTCGCATCCCG
GGCCAGGCGATGGCAGACCTGCTGCAGGTGTACGAGTTCCTTCACAACTTCGGACAGGCG
CTGGGATTCGGTGAGTCGAATCAAACGTTTGACCGATTTCAAATAACGTGGTGTTCTGTC
AAATATTGCGTTGCTATGGCTACAAAAAGATCAGGGTCGGGTATCGATAGTCGAGTTTCG
ACAATACAGATTATTATCAGTCCATCGAAGATTTGGAGACGTCCAGAGCAGGAATCGAGA
TGA

Protein sequence:

MDKENGEDPAAKPPPDGLLDPSGLFGAYWGREGASAAQAQAQAQAALFGFGSRYPPPTTL
GVAANQAASLSLHPAASAAWWSMASHLAAQDYLARLQASGLSFPPLGDPYAALSALAAGK
HKQKTQRNDGSGRGSSAKEKPPATSTSSQPTIPDWGSSYGFPPSSTPSGSLSSLASLNSL
AQQPHSKHKPPTNRKSSSASKEKESRDLMLAHSAYHAALTKGKGMSSLYPFGTPDKDRRG
IDSFTGLPHTILSDPSSVLGGVRLPPDTEIIKYTSSLAGPKLAPGSTTRGRKKTISLDPP
RVSVHPASPAAPPTPNKRQKVDEFGNSRSSVEVIRLPSKPDRNNVPTPPPNLSDYAGISR
ELLQTIASQSGVSLAALERQLQPANNEPGLNLSTKSANNSEDTPLDLGLKDEDTPLNLSL
KPTPPRRKPGAKPRRVAPDAHDSPRPKSSGSEDSESLPTWPSREGRPRNLGRGVSKPKKN
TVASLLAQSRALGLRPALAQQLLAETDIDKLRVLLGETASTDSECPSDSNPSDSDTSDGG
KRSNDPQLRLPLALGWKRVTVIKGLSRNCNIKGDVSYTPPEPNTGITIRTADELNAFLES
NPSAPLSRDSFSFSARVLLGEYVQHTHEEPVVMTETEITKRLEEARALAALSGRPTPPPL
ERRMELARRQQAARDARRDGRGRDQARLVREIERSEKAEVVKREKETRSAQLLEQINKSR
SQLTIEALPQKHTDEWKIPEIGPVVKNRDKTMPQISLSLIPVSGLKDSPIKTLNLDQNWK
GELEEYNALDKMKDFAEKASFDLPKRPNDKYFDFSLTKTPDKRKAPDKENNLDKLIESYS
RITEFINGCDWSKLRGDKKADDPKSLEQKYLDAKNEFMSQNLMLMPKDGQKSVLKEVIDL
SGDDDILKDIITKKINRGTFHVGKDGALSISVQPCKDASPAKKRKQEELEKQKMEDQAKR
QQEREIKRQQAMLLKEQERERRRQHTAFIRQLDARRRWEDRERRKHQNLLDRLLAKEKKL
QQRRKEMELLAELRRPQEDSSLSDHKPLPKLDRIPGLRIPGQAMADLLQVYEFLHNFGQA
LGFGESNQTFDRFQITWCSVKYCVAMATKRSGSGIDSRVSTIQIIISPSKIWRRPEQESR