MonarchBase - Protein-coding gene

DPGLEAN18877 in OGS1.0

New model in OGS2.0	DPOGS201327
Genomic Position	scaffold1560:+ 6436-10570
	See gene structure
CDS Length	945
Paired RNAseq reads	1039
Single RNAseq reads	2661
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA003121 (4e-121)
Best Drosophila hit	TATA box binding protein-related factor 2, isoform F (8e-70)
Best Human hit	TATA box-binding protein-like protein 1 (1e-52)
Best NR hit (blastp)	tata-box binding protein [Aedes aegypti] (5e-90)
Best NR hit (blastx)	tata-box binding protein [Aedes aegypti] (4e-73)
GeneOntology terms	GO:0016251 general RNA polymerase II transcription factor activity GO:0005669 transcription factor TFIID complex GO:0006367 transcription initiation from RNA polymerase II promoter GO:0006357 regulation of transcription from RNA polymerase II promoter GO:0003704 specific RNA polymerase II transcription factor activity GO:0005667 transcription factor complex GO:0003677 DNA binding GO:0001674 female germ cell nucleus GO:0001673 male germ cell nucleus GO:0005700 polytene chromosome GO:0005634 nucleus GO:0035071 salivary gland cell autophagic cell death GO:0035075 response to ecdysone GO:0035209 pupal development
InterPro families	IPR000814 TATA-box binding protein IPR012294 Transcription factor TFIID, C-terminal/DNA glycosylase, N-terminal IPR012295 Beta2-adaptin/TATA-box binding, C-terminal
Orthology group	MCL12904

Nucleotide sequence:

ATGATTCATTTCCTGTTTTTAGATTTCGCCGTGGAGGTCATGGCTACACTCATCCAAGAG
AATGGTATGAAGTTGAGCAAAGGAACCCATGGTGTAGTCGTTAACCATGGCATGACGACG
CACGGTGTCCCAAATCACATGGTGCCAGACCATGAATACTGTGAATCGGGTCAGGCCGAG
CAACCCGCACAACAGTGCCTCGACGCGGAGAGCGAGCCGCATCAGCCGCCCGTCGAGGAG
GAGGAGGAAACCCCAGAAATTGACATAATGATAAACAATGTTGTGTGCAGTTTTAGTGTT
AAGTGTCACCTGAACCTGAGACAGATCGCTTTAAACGGTGTTAATGTTGAGTTCAGACGG
GAGAACGGAATGGTTACTATGAAACTCCGGCGTCCATACACCACGGCCTCTATATGGTCC
TCTGGTCGGGTCACGTGCACGGGCGCCACTAGCGAGGATCAAGCTAAAGTGGCCGCCCGC
CGCTACGCACGTGCCCTACAGAAGTTGGGCTTCCAAGTACGCTTTCGCAACTTTCGTGTT
GTAAACGTACTCGGAACTTGTAGGATGCCCTTTGGCATTCGAATTATAGCATTCTCAAAG
AAATACAAAGAAGCAGACTATGAGCCTGAACTTCATCCCGGGGTAACATACAAGTTGTAC
AATCCCAAGGCGACTCTCAAGATATTTTCCACCGGTGGTGTGACAATAACTGCTCGAAGC
GTTAGCGATGTCCAGTCGGCCGTAGAGCGCATCTTCCCGCTGGTGTACGAGTTCCGTAAG
CCTCACTCGCCCGCCGATGAGGAGAAGCTGCGTCAGAGGCGGGCGGCGCGATCGCGGGGC
GCCGGCCCACAACCCGCAGAGGAGCGGCCCCTTGAACAAGCTGCACCACAGACTGACGAC
CCCATGCACCTGGTCACACTGTCCGACGACGACGCCTGGGAGTGA

Protein sequence:

MIHFLFLDFAVEVMATLIQENGMKLSKGTHGVVVNHGMTTHGVPNHMVPDHEYCESGQAE
QPAQQCLDAESEPHQPPVEEEEETPEIDIMINNVVCSFSVKCHLNLRQIALNGVNVEFRR
ENGMVTMKLRRPYTTASIWSSGRVTCTGATSEDQAKVAARRYARALQKLGFQVRFRNFRV
VNVLGTCRMPFGIRIIAFSKKYKEADYEPELHPGVTYKLYNPKATLKIFSTGGVTITARS
VSDVQSAVERIFPLVYEFRKPHSPADEEKLRQRRAARSRGAGPQPAEERPLEQAAPQTDD
PMHLVTLSDDDAWE