MonarchBase - Protein-coding gene

DPGLEAN00180 in OGS1.0

New model in OGS2.0	DPOGS208021
Genomic Position	scaffold1051:+ 15641-18775
	See gene structure
CDS Length	2244
Paired RNAseq reads	754
Single RNAseq reads	1948
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA001494 (5e-23)
Best Drosophila hit	ENL/AF9-related (5e-39)
Best Human hit	protein AF-9 (2e-33)
Best NR hit (blastp)	hypothetical protein TcasGA2_TC011185 [Tribolium castaneum] (2e-63)
Best NR hit (blastx)	PREDICTED: similar to GA21032-PA [Tribolium castaneum] (1e-56)
GeneOntology terms	GO:0006367 transcription initiation from RNA polymerase II promoter GO:0005674 transcription factor TFIIF complex GO:0005669 transcription factor TFIID complex GO:0016251 general RNA polymerase II transcription factor activity GO:0006355 regulation of transcription, DNA-dependent
InterPro families	IPR005033 YEATS
Orthology group	MCL24095

Nucleotide sequence:

ATGACAAATATAAAGGTTAATTTCGAGATCGGTCATGAGGCTTCTTTAAAATCTAAGAAA
ACTCCCGAAGGGTTCACTCATGACTGGGAAGTCTTCGTCCGTGGCCAGGAAGGTGCTGAT
ATAAGTCATTTTGTTGAGAAAGTAGTTTTCTATCTTCATGAAACTTTCCCGAAACCAAAG
CGAGTTGTGAAGGAGCCACCATTTTCCATAAAGGAGTCAGGCTATGCTGGTTTCGTGTTT
CCAATAGAAATATACTTAAAAAGCAAGGATGAACCCAAGAAAATTCAATTCACATATGAT
TTAACTTTACAGCAATGTGGATTTTTAAAAGATAGGTATGTGTTTCAAAATCCAAGTGAG
GAATTCAGAAGAAAACTTTTAAAAGGTGGAGGGATTCCCGTAAGTAACAGTTCTTTTTAT
ACAAACCCCGAACAGGAAAGTAGAAGTCGAGATTCATTCACCGATGAGAAACCACAACTT
GTTAGCAAACCAAAATTATCTTCAGATAATATAAAGAAACATAAAGTAAAAGAGTACAAA
GATGAACAGCCGCATAAAAACATTTGTTTTGAAAATTTGTTTGGACCACCTATACAGAAA
CCACCGAAAGTTTCCCCAGATCCCAAGAAACTGGAGAAAAGTTCTCTATCTGCTAAGTCT
GATAAGAAAGACAAAGATAGGTCTGGCTCAGATAAGAAATCGAAACATGATCACAAAGAA
AGCAAACAGGATAAGGTTAAAATTAAAGAAGAGAAGAGCAAGCAGAAGGGAGAAAAAGTA
AAGAATCACAATAAAGAACAGGATAGGGTTAAAGAAAAAACAGCTAAACGGCAAAATGAG
AGACCCCCTTCCCCTGAACCAGCCAAGAAAAGATGTCCAAGTCCTAATAGAAAGCTGCCA
AGTCCAATGCCTAGATCAAGTAGTGCCTCTAGCATAAAAGAAGAATACAAACCAAAACAT
AATTCTGAAAATTTTGAACACAGAAAATCTAAACTTGATGACAGAATACCGGATATAAAA
GTAGAGAAAGATGTAAAGGAGAAAAAGAAGAAAGAGAAAAAGAGTCATGATAGAGATAAA
GAAAGAAAAGAAAAGAAGGAGCACAAAAAAGATAGTCATAAGTCAAAAGAAGATAAGGAA
CCAATAAAGGAAATACCTAAAGAAATAGTCAAATCAAGAGAAGTTGTCAAGGAGAAAGAA
GTTATAAAAGATTCTCCTGTGAAAGAAAAACAAATAAAACCTGAAAAGACAGTGAATAAG
TTTTCTATAGAAAATTTAAGGAAGACACCTCCACCAGAAAATGTTGACAGGCATGATAAT
CACAAATCAAAGGACAAAGGAGACTCTGAGAGAAAACATAAACACAAGAAAAAAGATAAA
AAGAGAGACGAGTCGAAAGAAAAGCACAAAGAATCTAGCAAAGAGAAAAGGCATAAACAT
GAAAAAGTGCGGGAAATACCTCAAGAGAAACCTGAGGTTATTGAACTTAGAGAAACACCA
ATTCCAAAGGAACGTCCAATGCCTGAACCAGCCTCACCTATATCTATAGACACGGCATCT
CAATGTAGTTCTAAGAGTGGTATAAATAAACCTATACATATAGTGGACGATGCGAACAGC
AGTCATTCGGACTCGGAAGGATCAATAATAGCTGATGAAGAAGATGTTAAAGTTAAAATC
GAAAACCATTCTCCGGAACCTATTAAAAGAGAACCTTCTCCGGAACCAGAACCCGAACCT
GAACCGGAACCGGAAATTGAACCTGAACCGGAGCCAGTAGTGGAACTTCCGCCAGTCCAG
AAAGAAAAGTCTAAAAAACATAAAGACAAATCAAAAAAAGAAGAGAAGAGAAGAAAGAGA
AAAGCAGCTGAGGAGGAAGACGCTGAAAGTAGAAGAGTTGCTAAAGCTGCGGCGACTGCT
GACTCAGGACCTTCGAATAATGAAAATGATCATGGAGAAAGCAGTGGTTCAACGTCCATG
GAAACCAAAGTTCAGGATAATGGTGTATCAAGTAGCTTAGGAGAAGACGCAGAACCTGGG
GATCTCTCACCGGACTACATGGTACAACTCAGAGGTCTCCAGCAGAGAATTATGATGATA
AAGAACAACGAAGATCTGGAAAGGGTTGTGAATCTTATTGCGGAGACTGGGCGGTATGAA
GTAACTACACAGACGTTTGACTTTGATCTGTGTTTGTTAGATCGATCAACGGTTCAGCAA
CTGATACAACTCGTGGGTTGCTAG

Protein sequence:

MTNIKVNFEIGHEASLKSKKTPEGFTHDWEVFVRGQEGADISHFVEKVVFYLHETFPKPK
RVVKEPPFSIKESGYAGFVFPIEIYLKSKDEPKKIQFTYDLTLQQCGFLKDRYVFQNPSE
EFRRKLLKGGGIPVSNSSFYTNPEQESRSRDSFTDEKPQLVSKPKLSSDNIKKHKVKEYK
DEQPHKNICFENLFGPPIQKPPKVSPDPKKLEKSSLSAKSDKKDKDRSGSDKKSKHDHKE
SKQDKVKIKEEKSKQKGEKVKNHNKEQDRVKEKTAKRQNERPPSPEPAKKRCPSPNRKLP
SPMPRSSSASSIKEEYKPKHNSENFEHRKSKLDDRIPDIKVEKDVKEKKKKEKKSHDRDK
ERKEKKEHKKDSHKSKEDKEPIKEIPKEIVKSREVVKEKEVIKDSPVKEKQIKPEKTVNK
FSIENLRKTPPPENVDRHDNHKSKDKGDSERKHKHKKKDKKRDESKEKHKESSKEKRHKH
EKVREIPQEKPEVIELRETPIPKERPMPEPASPISIDTASQCSSKSGINKPIHIVDDANS
SHSDSEGSIIADEEDVKVKIENHSPEPIKREPSPEPEPEPEPEPEIEPEPEPVVELPPVQ
KEKSKKHKDKSKKEEKRRKRKAAEEEDAESRRVAKAAATADSGPSNNENDHGESSGSTSM
ETKVQDNGVSSSLGEDAEPGDLSPDYMVQLRGLQQRIMMIKNNEDLERVVNLIAETGRYE
VTTQTFDFDLCLLDRSTVQQLIQLVGC