MonarchBase - Protein-coding gene

DPGLEAN01871 in OGS1.0

New model in OGS2.0	DPOGS203797
Genomic Position	scaffold21:+ 117880-123758
	See gene structure
CDS Length	2031
Paired RNAseq reads	1240
Single RNAseq reads	3898
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA003704 (6e-155)
Best Drosophila hit	heat shock factor, isoform D (2e-79)
Best Human hit	heat shock factor protein 1 (2e-62)
Best NR hit (blastp)	heat shock transcription factor [Mamestra brassicae] (0.0)
Best NR hit (blastx)	heat shock transcription factor [Mamestra brassicae] (0.0)
GeneOntology terms	GO:0003677 DNA binding GO:0003704 specific RNA polymerase II transcription factor activity GO:0009408 response to heat GO:0005634 nucleus GO:0016563 transcription activator activity GO:0005700 polytene chromosome GO:0010552 positive regulation of gene-specific transcription from RNA polymerase II promoter GO:0043565 sequence-specific DNA binding GO:0003700 sequence-specific DNA binding transcription factor activity
InterPro families	IPR000232 Heat shock factor (HSF)-type, DNA-binding IPR011991 Winged helix-turn-helix transcription repressor DNA-binding
Orthology group	MCL16492

Nucleotide sequence:

ATGCGTTCAGTTGTGGAAATCGGGGCAAGTGTCCCCGCTTTTTTGGGAAAATTGTGGAAA
TTATTAAATGATACAGAAACGAATCATTTAATATCTTGGAGTCCCAGTGGAAAGACATTT
GTTATAAAGAATCAAGCTGATTTTGCAAGGGAGCTGTTACCACTATATTATAAACACAAC
AATATGGCTAGTTTCATCAGGCAATTGAATATGTATGGGTTCCATAAAATAACCTCAGTA
GAAAATGGTGGTTTGAGGTATGAAAAAGATGAAATTGAGTTTTCACATCCCTGTTTTATG
AGAGGACATGCATATCTATTGGAACATATAAAAAGAAAAATTGCCAATCCCAAGTCTATA
GTGGCAAGCAGTGAAAGTGGTGAAAAAATTCTTTTGAAGCCAGAAATAATGAACAAAGTG
TTAGCTGATGTGAAGCAAATGAAAGGGAAACAGGAGAGTCTGGATGCTAAGTTCAGTGCG
ATGAAGCAAGAAAATGAGGCGCTATGGAGGGAAGTAGCAATACTACGTCAAAAGCATATT
AAACAACAACAAATTGTTAACAATCTCATACAATTCCTGATGTCGTTGGTCCAACCATCA
AGAGCTCCCAGTTCCACTGGTAACAATGTTGGAGTAAAGAGGCCATATCAATTGATGATT
AATAACGCGGCACATAACTGCGGTGATAGCTCATACCCTGGTAGGCTTAAGAATATTAAA
ATTGACAAGGACATTGCATTGGAAGATTTAAGTGAAGAAAACTTGGAGGATGGGCCCACT
ATACATGAATTGGTACATGACGACACATTGCACAATGAAGTATCTCAGGATTCATTGGAC
GATAACTTTGTGTCGGTTGATTTAGCAAACAACCCACTTATTGCCAACTCACACAATAAC
TCTGATCCAACAACATCCTCTCGGTACCATGTAACAATGGAAGATGGTGAAGACCTAGAA
ACAGATCGTTCAAGATTATCATTGCCTATAGTCAATTCCAATGGTTTATGGAAACGTGAG
ACCCAGCCCATAGTTTCGTCCCCATCCCCTACAATGGCATCTGTGTCTCCAGTAGGTCAA
CAGTCAGCTGAGAATGTTAATGCCCACATAACAATATCACCGGGCACATCAAAGACGAAG
GCTCGAAGCAACTGTAGAAGTATTTTAGCGAACAAAAATGTAATGTCAACAAGCAACTTT
AACTCTATAAACCCATCAGCGGATTTTAAGCTACCAGCTGAGATTTTCGCTAGCGACGAC
TCTGTAAGTGATGTGGCGGCTACAGAGGAAGTTCTGCAGGATCTGGTATGTGATCAGGTC
ATCTCAGCCAAAGACAAGATGTTAGGTGGTGTAAATATAAAAATAGAGAAACCATTGGAC
TGTAAGAGTGGGAAAAAGTCGAAAAAGTCGAAGGATACCAACGACACCTGCTGCTTGAAC
CTAGCCGACATCAAGACTGAATTGCAGGACGACTTTGATTGGAACAATATGACACTTGCC
ACCGTTAATAACTCTAATATTAACAGGCAGCAGACAGTGTATAGGAGAGATAACTGCCAA
AATCGGGAAGATATAACTTCCCTGTTTGGATCAAATTCCAACAAGAACGATATCGACGAT
CATTTGGATTCAATGCAAACGGATTTGGATTCGTTGAAGGAGTTGTTGAGAGGTGATACT
TACGCGTTGGACACAAATACATTATTAGGGCTTTTCGGATCAGATGATCCTTTCTATGGA
CTCTCTTACAATCCGTCGAATGATCGCGCTAAGACCTGCAGTGGCGCTATGAAGCTGAAA
GGTGAGGTAACGAATGTAAGCGGTGACGACACACGCGCACAGAGCCCATTCGAAGATGAC
GCTGAAGGGAATCAGTTAATATCGTATACAGAGAATATTCCAGACTTTGAGGATATAAAT
ATGCCGGAATTGGAGGGCGAGAACTCTCAAGACTGCATCCCGAGTCCCAGCAGCTCGACC
TTGAATACACCACAAGTACAACTGCAGTCACCATCATATACGAGACCTTGA

Protein sequence:

MRSVVEIGASVPAFLGKLWKLLNDTETNHLISWSPSGKTFVIKNQADFARELLPLYYKHN
NMASFIRQLNMYGFHKITSVENGGLRYEKDEIEFSHPCFMRGHAYLLEHIKRKIANPKSI
VASSESGEKILLKPEIMNKVLADVKQMKGKQESLDAKFSAMKQENEALWREVAILRQKHI
KQQQIVNNLIQFLMSLVQPSRAPSSTGNNVGVKRPYQLMINNAAHNCGDSSYPGRLKNIK
IDKDIALEDLSEENLEDGPTIHELVHDDTLHNEVSQDSLDDNFVSVDLANNPLIANSHNN
SDPTTSSRYHVTMEDGEDLETDRSRLSLPIVNSNGLWKRETQPIVSSPSPTMASVSPVGQ
QSAENVNAHITISPGTSKTKARSNCRSILANKNVMSTSNFNSINPSADFKLPAEIFASDD
SVSDVAATEEVLQDLVCDQVISAKDKMLGGVNIKIEKPLDCKSGKKSKKSKDTNDTCCLN
LADIKTELQDDFDWNNMTLATVNNSNINRQQTVYRRDNCQNREDITSLFGSNSNKNDIDD
HLDSMQTDLDSLKELLRGDTYALDTNTLLGLFGSDDPFYGLSYNPSNDRAKTCSGAMKLK
GEVTNVSGDDTRAQSPFEDDAEGNQLISYTENIPDFEDINMPELEGENSQDCIPSPSSST
LNTPQVQLQSPSYTRP