MonarchBase - Protein-coding gene

DPGLEAN12671 in OGS1.0

New model in OGS2.0	DPOGS210919
Genomic Position	scaffold853:+ 79431-87839
	See gene structure
CDS Length	3420
Paired RNAseq reads	2171
Single RNAseq reads	4982
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA003069 (0.0)
Best Drosophila hit	relative of woc, isoform B (9e-144)
Best Human hit	pogo transposable element with ZNF domain isoform 5 (1e-17)
Best NR hit (blastp)	PREDICTED: similar to CG8092 CG8092-PA [Tribolium castaneum] (0.0)
Best NR hit (blastx)	PREDICTED: similar to CG8092 CG8092-PA [Tribolium castaneum] (0.0)
GeneOntology terms	GO:0008270 zinc ion binding GO:0005622 intracellular GO:0003677 DNA binding GO:0005515 protein binding GO:0043234 protein complex GO:0006355 regulation of transcription, DNA-dependent
InterPro families	IPR007087 Zinc finger, C2H2-type IPR015880 Zinc finger, C2H2-like
Orthology group	MCL16532

Nucleotide sequence:

ATGATGGAAATGCGAAAGGAAACGTCTCCTATACCTCCTCAAGCGGAGATCATAGAGGCC
GATTTATATAAACGATCATATTTTGGACCTGATGTTCCAACTTTGGAGCTAGAATGTTGG
GAGGAAGAGTTATCTGAGGCTCAACTGAAAGCCTATCAGACTGCCACTGAGGAGTATCAA
AGTATTCAAAACAAACTTGATGTGATTGTAAAAGATACAGGAGGAGAGATTGTTTACAAT
GGTGATCAATTTACAGCATACCAATTGCTGGGCAAACAACCAGCTCTAAAGGATTTGGAG
AGACAGAGTGCTGATATAATCAGATCTAGATCACGTTCCCTCTCCATATGTAAAGAAACT
AAAGAAGTCAAAGGAAAAAGAGGTCGACCCAGAAAGAATCGCGAAGAAGATCGGGATTAC
TCCCCGTCATCAGACAGGACAAAGTCACCCGATCAAAGACATAAGAAGAAAAAGAAGGAC
AAGAGGAAGTATGATGAGAGGGATACGAAGACCAAGGATAAAACTTTGGCTCCATCCAAT
GTTCACAGCGTTGTAACAAACGTCCGGCCGTCCGAGGCGACCGCCATCGGTGGCTTACTC
ACCGGCAGCGCGACCAAAACAACGGCCATAGTCGACTTGACCAAGGAAGACGGCAACAAG
AATGTGGCCGATTCCAGAGAGGTGTCGTTCAATAAACTGCAAGGCAAAACATTCCCGTCG
TTGGTGGTGGTGGCCCGGCCGTACCTGCGTTCCAAGGACGCGGCCGTGCCCGCTGATCGC
GCGACCCTCGATAGTAAAGTCAAAGCGGTTCTCATCCACACTCCCATGAAGTTCACCGAG
TGGCTCATACAACAGGGTCTAGTGCGGTCAGAGCAGTGGTGCGCTCTACATCCCGGGAAC
AAACTCAAGCTAGGTATGTATTCTGACGTGTCTAAGTTCCCGTACTCGGGCGGCTACGTG
TGGATATCCGAGTGCTGTCCTACTCGATTCGTCTCCGTGTTCTCGAGCTCTATCTTCGAA
GGAGCCACGTTTCCGCCCAGTGTCCTCCTGAAGCTCATATACCACTGGGCGTGTCAGACG
AACGTTCAGAACGTCGTCCAGTGGGTCAAAGTTGACAATCTATACGTCAAAGGTCTGTTT
ACTTGGTTGAGAGCGGTTTGCACGTCGGCTATACATCAGCACATGGGTCTGCTCGGCGGC
CCGGGGAAGAAGGTTGAAGTTGGAGTCATATCTTTGGGTACCACCAGCCATGATGGCACA
CAGAGACAAGTCAAAGTTGAAGTGTTGGGTGTGCTGGATCCCGTCGAGAAATTGATTCGC
CTTCGTGCGGTGGAGCCGTTGGCGGAGTACGAGAAGAATTATAAGAAGCGTTTCCAGAAA
ATTCTGGAGCCTCTCACCACTTGGGTCCATCCGTCGTCTATAATTCTGACGGATCTGACC
GTGGACAAAGGCACGCTTGTGTCCATGGGCTTTAAGACGGTCCACCAGTCCTCGTCTCAC
TCCGACCAACCCATGAAGTACAGCAACGCCAATATCATGGAATATTTACGACGTATCGTG
CCGAGAATGTTCCAGAACACTCTGTCGCTGCTGTCCAGGCAGATTATACAGCAGTTCCTC
GACGAACTGGTGTGGAGAGAAAAGTTCGGTGTGTCTCCCGGGCAGGCGTTCGACAACATA
GTGTCCCACATATCAGAGCAAACAAAATTGGACGCTAAGGACCCCATCACTATACGGCTC
TACAAAATCGCTTCTAATCCATTCAAAAACTGGAAGTACCCCAGCAAGAAAAAGGATAGA
TCGGAAGAATCTTTAGAACCGGAAGTGAGAAGCAAGCGCGGTAGAAAGAAGAAAGAGCGC
TCGCCCTCACCGCCGCCTAAGAAGAAGAGAAGTAAGACTTATATAGAAGACGAGGACGAC
GAAGAGATTCCACTGGCGCTGCGGCGGTCGAAAGTCAAGCAAGAGAAGAATAAAGACTCC
GACGGCCGGCGGCGCAAGGCGCGGGCTTACGTCGACGACGACCTGGACGACGTGCCGCTG
AAGAACATCAAGAAGGAGGTCAAACACGACGACACCGTCTCCCTCGAGAGGTTCTACTAC
GGCAGAACGACCGAGGGCCTCGCCGAGAACATCGCCATAGCCGTGCAGTGTCCGGCGTGT
CAGGTAGAGTTCAACGAGTCGATGTCGCTGTGCGTTCACCTGTGCGGGCACGTGTCGCGG
CGCGCGGCCGGCGTGCTGTGCGTGTTCTGTCAGAGCATGTTCGACAGTGAAGCAGAGCTG
AGCGAGCACCTCAAGTGTTCTCACCCCGTGGACACCAAGTCACCCGAACTCTTCACCTAC
GCCTGCCTCATATGTGAGGTACGTTTCGCGGCGGTGCTGACCCTGGCGGCTCACATGCAG
AAGGCCCACTGTCCGCGCGAGCTGCCCTACAGCTGCGGCTCGTGTCCCTACCGCGCCTCC
GCCCACCGCTCACTGCTGGAACACGTCATGAACAAACATCGCCGGTCCGACAAGCTAGTC
TGTCCGCACTGTCTCAAGATGATTCCAGTGTACGCCGACGGATGTGAACTCACAGCCAAC
GTGCTCCTCTACATGGACCATCTCAAGCAACACCAGGACAAGGAGCTGGAGATCAAATGC
ACGAGATGCGTGCTGAGATTCGTACATCTCGGTCAACTGAAAGAGCATCAGATTCGCGAC
CACAACCCGTGCGAGGAGGTCCTGCCTCTGTGTTCTACTGAGCACTTGATTAACCTGCCC
AAGAACAAAGCCCGCCCTCCCATCAAGGACGTCGCGTGTCACGCCATCAGCGACACGTAT
GAAGGTGTCACGTTGTTCCTACAGGACGGTCTTCTGTGTCGCGAGTGTGACACGCCGCTT
GACAGTGACAAACACTTCCTCGGTCGCACGTCGTGCAGCAAGTGTCCGTATGCTACATCA
TGTTACCGAGCGATGTTGAGACACAGTGGATACTGCGCCGGCCCACATTCACTAGAGGCC
GCCCCTAGACCCGCGCCCATGCTCTACTGCGTATGTGAATACTCTACAGACATAGGCACG
GACATGCTGTCCCATCTTCTCGCTACACAGCACACAAGCGCCTACTTAAGTGAGGAACTT
GCACGAGCCAACACTGTCAGGGAGGAACCAAAACCAGCTGATGAAGTGGAGCCTCTTGTG
GAGAACATGCCAGCTATCCCAGATTACGCTCCTCCATCGGTCATCAACACTCAGCTGTCT
CTAGATGATCTTGCTCCCCCTTCAGTTTTACAACCTGATCAGCATGATCAAGAACTCCTG
AAGGACGCATATGACCGCCCCCTGGCAACACCAAGACATGAGGAACCTCACTACACTCTC
GGAGACTTTGAACCATTGCCTCAAGAGCCACCTCCCCAACCAGACTTTGAACAACTGTAA

Protein sequence:

MMEMRKETSPIPPQAEIIEADLYKRSYFGPDVPTLELECWEEELSEAQLKAYQTATEEYQ
SIQNKLDVIVKDTGGEIVYNGDQFTAYQLLGKQPALKDLERQSADIIRSRSRSLSICKET
KEVKGKRGRPRKNREEDRDYSPSSDRTKSPDQRHKKKKKDKRKYDERDTKTKDKTLAPSN
VHSVVTNVRPSEATAIGGLLTGSATKTTAIVDLTKEDGNKNVADSREVSFNKLQGKTFPS
LVVVARPYLRSKDAAVPADRATLDSKVKAVLIHTPMKFTEWLIQQGLVRSEQWCALHPGN
KLKLGMYSDVSKFPYSGGYVWISECCPTRFVSVFSSSIFEGATFPPSVLLKLIYHWACQT
NVQNVVQWVKVDNLYVKGLFTWLRAVCTSAIHQHMGLLGGPGKKVEVGVISLGTTSHDGT
QRQVKVEVLGVLDPVEKLIRLRAVEPLAEYEKNYKKRFQKILEPLTTWVHPSSIILTDLT
VDKGTLVSMGFKTVHQSSSHSDQPMKYSNANIMEYLRRIVPRMFQNTLSLLSRQIIQQFL
DELVWREKFGVSPGQAFDNIVSHISEQTKLDAKDPITIRLYKIASNPFKNWKYPSKKKDR
SEESLEPEVRSKRGRKKKERSPSPPPKKKRSKTYIEDEDDEEIPLALRRSKVKQEKNKDS
DGRRRKARAYVDDDLDDVPLKNIKKEVKHDDTVSLERFYYGRTTEGLAENIAIAVQCPAC
QVEFNESMSLCVHLCGHVSRRAAGVLCVFCQSMFDSEAELSEHLKCSHPVDTKSPELFTY
ACLICEVRFAAVLTLAAHMQKAHCPRELPYSCGSCPYRASAHRSLLEHVMNKHRRSDKLV
CPHCLKMIPVYADGCELTANVLLYMDHLKQHQDKELEIKCTRCVLRFVHLGQLKEHQIRD
HNPCEEVLPLCSTEHLINLPKNKARPPIKDVACHAISDTYEGVTLFLQDGLLCRECDTPL
DSDKHFLGRTSCSKCPYATSCYRAMLRHSGYCAGPHSLEAAPRPAPMLYCVCEYSTDIGT
DMLSHLLATQHTSAYLSEELARANTVREEPKPADEVEPLVENMPAIPDYAPPSVINTQLS
LDDLAPPSVLQPDQHDQELLKDAYDRPLATPRHEEPHYTLGDFEPLPQEPPPQPDFEQL