MonarchBase - Protein-coding gene

DPGLEAN00205 in OGS1.0

New model in OGS2.0	DPOGS202335
Genomic Position	scaffold926:+ 2514-51589
	See gene structure
CDS Length	3183
Paired RNAseq reads	499
Single RNAseq reads	1362
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA005001 (2e-15)
Best Drosophila hit	CG16779 (1e-46)
Best Human hit	zinc finger protein 541 (7e-28)
Best NR hit (blastp)	hypothetical protein TcasGA2_TC014528 [Tribolium castaneum] (1e-135)
Best NR hit (blastx)	hypothetical protein TcasGA2_TC014528 [Tribolium castaneum] (7e-80)
GeneOntology terms	GO:0005622 intracellular GO:0003677 DNA binding GO:0008270 zinc ion binding
InterPro families	IPR015880 Zinc finger, C2H2-like IPR001005 SANT domain, DNA binding IPR009057 Homeodomain-like IPR013087 Zinc finger, C2H2-type/integrase, DNA-binding IPR000949 ELM2 domain IPR007087 Zinc finger, C2H2-type IPR017884 SANT, eukarya
Orthology group	MCL12778

Nucleotide sequence:

ATGTATAGCGCGGCGGTGGGCGGAGAAGGTGTCGCGCTGCAGCTCCGAGAGGCGACACCT
TCAGAAATAGATGAACGGCTCTCCATAGCCTGTCACGAGCCTGAGTTACTGGCTGACCTG
CTTCACGCTGCTGACATAGACGGTGAGCATGCAGGTCTCACGGAACTTCTTGGTGCATCG
TCTCCAGATCTGGCTTTTTCTTCTGACGCATCAGATAGCCTGCCACTACCAGAACACGAT
AATGAATGCACGACATCATCATCGTCAAGTGTGAGCGGTGTCACGAGGGTGTCTGTAGCG
GTGACCGGAATAGAGTCAAAGACCTTGGCCAAAAAGGTCCGACCTAAACCAGCGTCTCCG
AACCGCCAGGGGCCGCAGCAATGTCAAGTTTGCAACAAAGTGTTCGGCAACGCGTCTGCA
CTAGCGAAGCATAAGCTGACGCATAGCGATGAGAGGAAATATGTCTGCATCACTTGCGCA
AAAGCTTTTAAAAGGCAAGACCATCTGAACGGGCACATGCTTACGCACCGCAACAAGAAA
CCATACGAGTGTAAGGCGGATGGGTGCGGAAAATCGTATTGCGACGCTCGGTCTCTTCGA
CGTCATACTGAAAATCATCACCAGCCTCCCTCTGATAAGAGCACCTCATCAGAATCGAGT
GTGGATCGGGAGACGGCGCGAGTGACGTCACCCTCTTCGCCCTCTCGCACTAACTCTGCG
ACTTCTAATATGAACAGCTCGGAGAAATCTCGCAATGACAGCAGCCCGCCGCACACACCG
CCGCCGAGAGCACGCAACAAACCGAAGGCTAAAACTACGCAACAGAGCAGCCCGAAATGC
GGTGGCAGCAGTGTGAGCCGTTCAAGTGCGACTGGCAGTTCTGGACTGATTCGAACAACA
GATGTCAAGCCCGTCGAGTGTAATTTATGTCACCGCAGATTTAAAAACATCCCCGCCCTC
AATGGCCACATGCGACTACACGGTGGATACTTCAAAAAGGATTCAGACAACAAGAAGTTA
GACAAGAAAGAATCAACTGGTCCTCCTTTACAAACTGCCTCTGTATCCGTGAGAGCTCTG
ATCGAAGAGAAGATCATAAGTCGTCGAGGTGCTACCGTATCACAAGCACCAACCTCAGGT
ACAACAACCGACACAATATCTCGATCGGGGTTTATTGTTCCAGCCCCACCACCTCTATCA
ACTATTAAAACTTATTCGTCACCAGTAACAACGGTTACTACTTCAGCACCATTTGTTTCC
CCCCGTGCACCGCCAGCAGTGACAGTATCAAATACAACTACATTAAATAGAGATTCTACG
CTCATTGAACTTTTAAGAAAAGGAAGCTCAAAGGTTGTTAAGCGCTCCGCATCTGATCCT
GGCCAGGCGTCACCACAGCAACAAGACTTTACTTTCCGACCTGAATTATTTGGCGTATCG
TTTAACTCAGACGATGGTTATTTTTCACCTGCTTTAAATGACGATACTTTCCAATTTGCA
ACAGCTTCTGATCATTTAGAAGAACTTGCGTCTCTTGAAGACTACGCAACTGTTGCTGCC
TCTATACGAGAGCGGTCACCCGTAACTTTCCCGTCCAGTCGTCGTTTAGCTGCAGTTCTA
AATTCTCCCCTACCAGAATCTTTAGCTGATTTTGGAGCTTGTCATGGAGGATCACCTGTT
CCATCTCCTGGTATCGCATATGCTGATAGTTCACCGGGATTGTCTTATACAACTGGGGAT
TCACCAGGGTTAGCTTACACAGCCACATCTCCTAGTGGTAGTTATTCCAATCAACCGGAA
CCTTCACCAAGTTTCGCTTATCCAACACCTCCAGCATCTCACGATGCCCATTCACCGGCC
CATACAGTCCCAAGAGCATCGTCGCCACTATCAGCTGCATTTTTTACGGCTACAATGTCC
AGTCAAGAAGAGGTGGAAGAGGCCCTTGAAGAGGTTTTGCCTGAAGAATGCCGATCTTTA
GATGCTTATGCTTTGGAATCTTCAACAACTACAAGACGAATTATGCTTAATTCCGAAGAT
CCCCTTTTGTCCAGTAGTCCTCGGGATTTCCCCAATCAAAGAAGTATTCGTCGCCAGAAT
AGAGTAGCAACACCTATGGCAGCACCTATGCAAACATGGCAACAGGACACAACAGCGCTT
CAAGTGTGTGTGGAAGGTCGAGACCCACTACCAGCAGTATTTCTTAGTCCGAACAGCGTA
CCGGCGTCGCCTCAACAACGCAAACGTCGCGCGTCTCCAGCTGGTCCATACAAGTCGCGC
ATGCGTCGTAGAGTCAATCACTACACACCACAACCAACCCTACCACCAGATAGAGACGGT
TGCGGTCTATTCGTAGAAATCAGAAATGCCCTTCAAGCCAACCTTGATATTACACTTGAA
GATACACCACTGGAAGAGAATCGCTTACCACAAATTAATATCGGATCCGATCATCAAGCA
GATATACCGGAACTGTGTAACGACCGTATAGATCTACATAGAGCTCCGGAACAACTCTTA
TGGGATCCTGGTATTAACGACGCACTAGATGACAATGAAGTCCGCATGTTCATGGAGCTG
GCGATGTGTGCGGCGATGCCAGTTGGAGGACATACAAGAGAGAGTGCTTTACAAACATTG
GGAGAGTGCGGTGGTGACGTCCGCATTGCGACGCTTCGTCTCATGTCTCGACCAGCTGCG
CCCTCACAACAGGAGTCACGCTGGACTCCTGACGAAGTGGAGGCTTTCCTAGCTGGACTT
GGGCAGTTCGATAAAGATTTCTTTAGGATTTCACAACTGGTAAGATCGAAGGACTCAAAA
CAGTGCGTTCAGTTTTATTACTTCTGGAAGAAGGTGACAAAAGACTACAAGACACTGTAT
TTAAGAAGTTGGGCCGATTCTCAAGCTCAAGGTTCCGTAGCACAGATTTCGTCTCGAACG
ACCTCATGCGCCTCGCCAACAACAGCGTACGAAGGCGAGGAGTTTCCGTGCAAAATATGC
GGAAAAGTATTTAACAAAGTTAAAAGTCGTAGCGCACACATGAAGTCGCACCGGCCACTC
GACGCCGAGCCCAAACGGTCAAAACTCGAAAAACCTTATGAAAAGGTCGAGAGATCTGAC
GAGAGGTCGATCAGATCTGAGCGACAGCAAAACACAAAAGCAAACAGCTCAGTAACTGAC
TGA

Protein sequence:

MYSAAVGGEGVALQLREATPSEIDERLSIACHEPELLADLLHAADIDGEHAGLTELLGAS
SPDLAFSSDASDSLPLPEHDNECTTSSSSSVSGVTRVSVAVTGIESKTLAKKVRPKPASP
NRQGPQQCQVCNKVFGNASALAKHKLTHSDERKYVCITCAKAFKRQDHLNGHMLTHRNKK
PYECKADGCGKSYCDARSLRRHTENHHQPPSDKSTSSESSVDRETARVTSPSSPSRTNSA
TSNMNSSEKSRNDSSPPHTPPPRARNKPKAKTTQQSSPKCGGSSVSRSSATGSSGLIRTT
DVKPVECNLCHRRFKNIPALNGHMRLHGGYFKKDSDNKKLDKKESTGPPLQTASVSVRAL
IEEKIISRRGATVSQAPTSGTTTDTISRSGFIVPAPPPLSTIKTYSSPVTTVTTSAPFVS
PRAPPAVTVSNTTTLNRDSTLIELLRKGSSKVVKRSASDPGQASPQQQDFTFRPELFGVS
FNSDDGYFSPALNDDTFQFATASDHLEELASLEDYATVAASIRERSPVTFPSSRRLAAVL
NSPLPESLADFGACHGGSPVPSPGIAYADSSPGLSYTTGDSPGLAYTATSPSGSYSNQPE
PSPSFAYPTPPASHDAHSPAHTVPRASSPLSAAFFTATMSSQEEVEEALEEVLPEECRSL
DAYALESSTTTRRIMLNSEDPLLSSSPRDFPNQRSIRRQNRVATPMAAPMQTWQQDTTAL
QVCVEGRDPLPAVFLSPNSVPASPQQRKRRASPAGPYKSRMRRRVNHYTPQPTLPPDRDG
CGLFVEIRNALQANLDITLEDTPLEENRLPQINIGSDHQADIPELCNDRIDLHRAPEQLL
WDPGINDALDDNEVRMFMELAMCAAMPVGGHTRESALQTLGECGGDVRIATLRLMSRPAA
PSQQESRWTPDEVEAFLAGLGQFDKDFFRISQLVRSKDSKQCVQFYYFWKKVTKDYKTLY
LRSWADSQAQGSVAQISSRTTSCASPTTAYEGEEFPCKICGKVFNKVKSRSAHMKSHRPL
DAEPKRSKLEKPYEKVERSDERSIRSERQQNTKANSSVTD