MonarchBase - Protein-coding gene

DPGLEAN08961 in OGS1.0

New model in OGS2.0	DPOGS212040
Genomic Position	scaffold858:+ 20703-29554
	See gene structure
CDS Length	1686
Paired RNAseq reads	796
Single RNAseq reads	1897
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA010089 (0.0)
Best Drosophila hit	Tfb1, isoform A (1e-141)
Best Human hit	general transcription factor IIH subunit 1 (9e-102)
Best NR hit (blastp)	GD11042 [Drosophila simulans] (2e-159)
Best NR hit (blastx)	GE13578 [Drosophila yakuba] (5e-143)
GeneOntology terms	GO:0016251 general RNA polymerase II transcription factor activity GO:0005675 holo TFIIH complex GO:0006367 transcription initiation from RNA polymerase II promoter
InterPro families	IPR005607 BSD IPR011993 Pleckstrin homology-type IPR013876 TFIIH p62 subunit, N-terminal
Orthology group	MCL14279

Nucleotide sequence:

ATGACCACATCGTCGGAGGACGTTCTTTTGAGTGTAGGACATGTAAGGTATAAAAAGGGC
GATGGCACTTTGTATGTGATGAACCAAAGATTGGCTTGGATGCTTGAGAACAAGGACACT
GTTGCTGTCTCTCACAAGTATGCAGATATAAAAACTCAAAAAATCTCACCAGCTGGAAAA
CCAAAAGTTCAACTACAAGTGGTGTTACATGATGGGGCATGTTCCACATTTCATTTTGTC
AATCCGGCCGGGGCAGAGGCTCAGGCTAAAGACAGGGACCAAGTTAAAATGTTATTACAG
AATCTATTACCCAAGTTTAAGAGACAGATAGACGGAGAGTTGGAGATGAAATCTAAGCTA
CTGTCGTTACATCCCACATTAAAGCATTTATATGAAGATTTAGTTATATCAAAAGTTATA
AATAGTGAAGAGTATTGGAATACGCCGACATTGAAACATTACACAGAATCTACTAACATG
AAACAAGAGGCCGGCGTGTCGGGTGCGTTTCTAGCCGATATACAGCCGCAGACTGATGGA
TGCAATGGACTTAAGTATAACCTGACGCAGGACATTATAGATGCCATATTCAAAACATAT
CCGGCGGTTAGGAAGAAACATGTGGATTATGTGCCAAATAAGATGACAGAGGCTGAGTTT
TGGACAAAATTCTTTCAATCCCATTACTTTCATAGAGATCGTATAATGTCGTCATCGAGT
AAGGACTTATTTGGGGAGTGCGCTAAACTTGATGACCAAGCGATCGCCTCCGCTATGAAA
CACACAACCTTGGACTTGACTGTGGATCTACCCTCATTCAAAGAACCAATCCCACTCTTA
CCCGACGATGAAACACACGAAAAGGAAAAAGATGGTACATCGATACACAGGAACATGATA
AAAAGATTCAACCAACACTCCATAATGGTGCTAAAAGCTAGTCATAAAAATTCCAATAGC
AGTAGTAGTAAAACAAATAAAGTCGAGAATGGTATGAAAGAAACGAACGGCGTCGAAAAA
AGGCCGAGTGCAGACAAAGATGTGACGGAGCCGGTTGATAAGAAACGTAGGATAATGGAG
AAGATACATTACGAGGACCTGGATAATGTGGATAGCAATGAAGATACTCAGGAGTTGAAA
CTGTCAAAGGTAGAACGATATCTGTTGGGTCCAGCGTCTCAAGTGGGTCACACAGGAACG
AGTTCCAGTAATCCACCACCACTGTCCGCCCTGGCATCTGTCTGTCAGGCGTGGAGTAGT
GGTCAACAGTGTAGTCGCCCTGTCCGCGTGAGTGCTGCGGCCGCTGTCGGAGCTCTGGGC
GAATTAAGCCCGGGAGGAGCTCTAATGAGGCAACACCACGCGGCGAGCATGGCCCAGCTG
GTCCCGCCGCCCGCCCGCCAGGAGCTCCAGCGTCTGTACCTGTCATGTGGCGAACTGCTC
CGTGAGTTGTGGCGTTGTTTCCCTCAGCCGGGCGCTCCGCCCGATGACGACGCCGGCACC
AGGGCGGAGAGGTTCTATGACGCTATCATGAGGTTCAGGAACCTTAAGCTGAGGCCGTTT
GAGGAAAAAATGCTACGTGACCTGACACCGCTGGCGTCGTCATTAACAAGACATATGAAT
CAAATGATCGAAACAGCCTGCGCCAAATACGCTGTTTGGCAACAGAGACAAGCTAAACTT
CGGTAG

Protein sequence:

MTTSSEDVLLSVGHVRYKKGDGTLYVMNQRLAWMLENKDTVAVSHKYADIKTQKISPAGK
PKVQLQVVLHDGACSTFHFVNPAGAEAQAKDRDQVKMLLQNLLPKFKRQIDGELEMKSKL
LSLHPTLKHLYEDLVISKVINSEEYWNTPTLKHYTESTNMKQEAGVSGAFLADIQPQTDG
CNGLKYNLTQDIIDAIFKTYPAVRKKHVDYVPNKMTEAEFWTKFFQSHYFHRDRIMSSSS
KDLFGECAKLDDQAIASAMKHTTLDLTVDLPSFKEPIPLLPDDETHEKEKDGTSIHRNMI
KRFNQHSIMVLKASHKNSNSSSSKTNKVENGMKETNGVEKRPSADKDVTEPVDKKRRIME
KIHYEDLDNVDSNEDTQELKLSKVERYLLGPASQVGHTGTSSSNPPPLSALASVCQAWSS
GQQCSRPVRVSAAAAVGALGELSPGGALMRQHHAASMAQLVPPPARQELQRLYLSCGELL
RELWRCFPQPGAPPDDDAGTRAERFYDAIMRFRNLKLRPFEEKMLRDLTPLASSLTRHMN
QMIETACAKYAVWQQRQAKLR