MonarchBase - Protein-coding gene

DPGLEAN00012 in OGS1.0

New model in OGS2.0	DPOGS213025
Genomic Position	scaffold46:+ 65107-79829
	See gene structure
CDS Length	1359
Paired RNAseq reads	1537
Single RNAseq reads	3473
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA006943 (8e-145)
Best Drosophila hit	Sp1, isoform D (2e-74)
Best Human hit	transcription factor Sp9 (5e-64)
Best NR hit (blastp)	Sp-like zinc finger transcription factor [Tribolium castaneum] (1e-130)
Best NR hit (blastx)	Sp-like zinc finger transcription factor [Tribolium castaneum] (3e-114)
GeneOntology terms	GO:0005634 nucleus GO:0003702 RNA polymerase II transcription factor activity GO:0045449 regulation of transcription GO:0003676 nucleic acid binding GO:0008270 zinc ion binding
InterPro families	IPR007087 Zinc finger, C2H2-type IPR013087 Zinc finger, C2H2-type/integrase, DNA-binding IPR015880 Zinc finger, C2H2-like
Orthology group	MCL11976

Nucleotide sequence:

ATGGAGTCGCGCGTGCGATCGATAGAGCCTTATGGGCGGGGGCCGGTGTGGGCGGGGAGC
AATAAGAGGCTGGTATTGGTTCGGACCGCCCATCCCGCCCCCCACGTCGCGCATCAAACC
CGCACCCGTAAACGTATGCCCGCGCGCCGCGACAAGAGACGTCATGCAAATGTTCCGAGA
CGTCCCGCGGCGGGCGGTAGCGGCCGGGAGCTGTCACCGCTCCGACTAATTGAGCATCCG
AACTTGCGCGGCACGCCATTGGCGATGCTCGCTGCGCAGTGCAGCAAGCTGTCCAGCAAG
TCGCCACCACCACTGGCTGATGCAGCGGTCGGCAAAGGTTTTCATCCGTGGAAGAAAAGC
CCTGGAACACATTCTCCACCGGGAGCTGGTTTGGTGCCTCGATCGCAGGCGTCGGCTTGC
ACACCATATGCACGAGCCCCTACCTCATGTGCTGCGGCGCCTTCATACGGAAACGAGCTC
TACTTTCCTTCATCGGGTGATCAGTTGCTAGGGAAAAGTGAATCGAGCGCCAGTCTAGGC
TCCATGTACTCAAGACACCCTTACGAGTCCTGGCCTTTTAATGTTGGAGGTGGCGGTGGT
AGTGGTGCTTTGAAAGCAGCTGAAATGGGCGGTGTAAGCGCTGTAGGTAGTACTTGGTGG
GATGTCCACAGTGGGTGGTTAGACGTTGGAGGTCAAATGGCAAACTACGCTGGGCAAGAT
TATTCTCAATTGACGCACTCTCTTTCTGGAGGAGCTCATTTGCTTCCTCCAGCGCCCCAC
CTCCTACAAGATGCATATAAATCTGTGTTGCCTACACAGGGATCTTTCGGTCTTCATGCA
CCAGGATCCCCAGCACCACCAGCTCAGGCTCCGTCACCGCGATCTCAGCGACGATACGCC
GGCCGCGCTACTTGTGACTGTCCTAACTGTCAAGAGGCCGAAAGACTCGGACCGGCTGGA
GCTCATCTTCGTAAGAAAAATATACATAGTTGTCATATACCTGGATGTGGAAAAGTATAC
GGGAAAACATCCCACCTTAAGGCTCATCTACGCTGGCACACTGGCGAGAGGCCTTTCGTG
TGCAACTGGCTGTTCTGTGGAAAACGTTTCACACGCTCCGATGAACTACAGAGGCATCTG
AGAACGCACACAGGCGAAAAAAGATTTGCATGTCCTGTGTGCAACAAACGTTTCATGAGG
TCGGATCATCTCGCTAAACACGTCAAGACTCATAATGGAGGAAAGAAGGGCAGTTCGGAA
TCTTGCTCGGATTCCGAAGAGAATAGCCAAGGGGAGAGTCATGCTGGTGGAAGGTCGCCA
GAGCATCACTTGGATGTGAAACCAGGTGCACTCGTGTGA

Protein sequence:

MESRVRSIEPYGRGPVWAGSNKRLVLVRTAHPAPHVAHQTRTRKRMPARRDKRRHANVPR
RPAAGGSGRELSPLRLIEHPNLRGTPLAMLAAQCSKLSSKSPPPLADAAVGKGFHPWKKS
PGTHSPPGAGLVPRSQASACTPYARAPTSCAAAPSYGNELYFPSSGDQLLGKSESSASLG
SMYSRHPYESWPFNVGGGGGSGALKAAEMGGVSAVGSTWWDVHSGWLDVGGQMANYAGQD
YSQLTHSLSGGAHLLPPAPHLLQDAYKSVLPTQGSFGLHAPGSPAPPAQAPSPRSQRRYA
GRATCDCPNCQEAERLGPAGAHLRKKNIHSCHIPGCGKVYGKTSHLKAHLRWHTGERPFV
CNWLFCGKRFTRSDELQRHLRTHTGEKRFACPVCNKRFMRSDHLAKHVKTHNGGKKGSSE
SCSDSEENSQGESHAGGRSPEHHLDVKPGALV