MonarchBase - Protein-coding gene

DPGLEAN02129 in OGS1.0

New model in OGS2.0	DPOGS210135
Genomic Position	scaffold978:- 42705-47293
	See gene structure
CDS Length	3111
Paired RNAseq reads	4674
Single RNAseq reads	13441
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA003759 (0.0)
Best Drosophila hit	Spt5 (0.0)
Best Human hit	transcription elongation factor SPT5 isoform b (0.0)
Best NR hit (blastp)	PREDICTED: similar to GA20489-PA [Nasonia vitripennis] (0.0)
Best NR hit (blastx)	GK15869 [Drosophila willistoni] (0.0)
GeneOntology terms	GO:0005634 nucleus GO:0003711 transcription elongation regulator activity GO:0006350 transcription GO:0005703 polytene chromosome puff GO:0005705 polytene chromosome interband GO:0000176 nuclear exosome (RNase complex) GO:0032968 positive regulation of RNA elongation from RNA polymerase II promoter GO:0007052 mitotic spindle organization
InterPro families	IPR006645 Transcription antitermination protein, NusG, N-terminal IPR005824 KOW IPR014723 Ribosomal protein L24, SH3-like IPR005100 Transcription elongation factor Spt5, NGN domain IPR022581 Spt5 transcription elongation factor, N-terminal IPR008991 Translation protein SH3-like IPR017071 Transcription elongation factor Spt5
Orthology group	MCL11767

Nucleotide sequence:

ATGTCGGACTCGGAGGGCAGTAATTACTCCGGGAGTGGCTCGGACGCAGGTAGTGTTGTG
TCTAATCGGTCCAGACGCAGCGCTGCATCAAATCGCTCTGCTAAGTCCAGGTCACGTTCT
CGCTCACGATCCAGAAGCCGTTCCGCTGGTTCCGATGGCAGCCGAAACAGGGATGATGAG
GCTAAGGAGGCTTCTGGTGATGAAGAAGTTGAGGATGAGCAAGAGCCCGAAGGGGAGGAC
CTGGTGGACTCGGAAGAGTATGATGAGGACGAGGAAGAGGAACGACGTAGGAAGAAGAGG
AAGAAGGACAGTCGCTACGGAGGATTCATTATAGATGAGGCTGAGGTAGATGATGAAGTC
GATGAAGACGATGAGTGGGAGGAAGGCGCCCAGGAAATGGGTATCGTCGGTAATGAGGTG
GATGAGATCGGACCCACAGCCAGAGAAATAGAGGGCCGACGCAGAGGAACCAATCTGTGG
GACTCACAGAAAGAAGAAGAAATAGAGGAATACTTGAGAAATAAATATGCTGATGAATCA
GCGGCGCTCAGACACTTTGGTGAGGGCGGTGAAGAAATGTCTGATGAGATCACTCAACAG
ACCTTGCTGCCCGGCATCAAGGATCCTAACCTGTGGATGGTGAAATGCAGGATCGGTGAA
GAGAAGGCGACTGTGTTATTGCTTATGAGAAAATTTATTACCTACCAGAATTCAGAGGAA
CCTTTCCAAATAAAGTCGGTGGTGGCTCCGGAAGGAGTCAAGGGCTTCATCTACATTGAG
GCATACAAACAGACACATGTGAAAGCCATCATAGACAAAGTGGGTAATTTGAGAATGGGC
ACATGGAAACAGGAGATGGTACCCATCAAGGAAATGACAGATGTTTTGAGGGTTGTTAAG
GAACAGTCAGGTTTAAAACCGAAACAGTGGGTGCGACTCAAGCGAGGCCTCTATAAAGAC
GATATAGCTCAAGTAGATTACGTAGATTTAGCACAAAACCAAGTTCACCTGAAACTTCTT
CCTAGAATAGACTACACAAGACTCAGAGGAGCTCTAAGGACCGTGCAGAGCGAGAGCGAA
GCGGCCAAAAGGAAAAAAAAGCGGCGACCTGCGGCCAAACCTTTCGACCCCGAAGCTATT
CGCGCCATCGGCGGCGAAGTGACTTCGGACGGTGACTTCCTCATATTTGAGGGAAACAGA
TACTCCAGAAAGGGTTTCCTGTACAAGAACTTCACCATGTCCGCGATATTGGCGGAGGGC
GTCAAACCCACGCTCACGGAACTAGAAAGATTCGAAGAGCAACCGGAAGGTATAGACATC
GAGCTGGCGGCGCCCGCCAAGGACGACCCCACTAGTCTGCACTCGTTCTCGATGGGAGAT
AACGTGGAGGTGTGTTCCGGTGATCTGGCCAACCTGCAGGCCAGGATCATAGCCATAGAT
GGCTCCATGATCACCGTCATGCCGAGACACGACGCTCTGAAGGATCCGCTCGTATTCAAA
CCCAACGAACTACGGAAGTACTTCAAACAGGGAGACCACGTGAAAGTCTTAGCGGGAAGA
TACGAGGGCGACACCGGTCTCATCGTCCGAGTGGAACCTCACAGGGCGGTCCTCGTGTCG
GATGTGACGATGCACGAGCTGGAGGTGTTGCCCAGAGACCTGCAGCTGTGTTCGGACATG
GCGACCGGCGTGGACTCGCTGGGACAGTTCCAGTGGGGGGACATGGTGCTGCTGGACTCG
CAGACGGTCGGCGTCATCGTCCGACTCGAGAGGGAGAACTTCCACGTGCTCGGCATGCAG
GGGAAGGTGATCGAGTGCAAACCTCAGGCGCTGCAGAAGAGAAGGGAGAACAGGTTCACC
ATGGCGCTCGACTCCGAGCACAACTCCATACAAAAGAAAGACATCGTCAAGGTCATCGAC
GGACCGCACGCGGGCCGCGAGGGAGAGATAAAGCATCTGTACAGAAACTTCGCCTTCCTG
CAGTCGAGGATGTACCCCGACAACGGAGGAATCTTTGTGTGCAAGACGAGACACCTGCAG
CTGGCGGGAGGCGCCAAGAACGCCGCCGCCAGCAACGGACTCGCTCTCGCGTTCATGTCG
CCGAGGATACAGTCACCCATGCACCCGTCGGGCAGGGGAGGGGGCCGGGGCCGCGGCCGG
GGAGGGAGGGGGGCTGTCGCCAGGGACAGGGAGCTCATAGGACAGACCATCAATAGAGAC
GCCACGGGCAGCACCGCGCGCGTGGAGCTGCACACCATGTGTCAGACCATCTCCGTGGAC
CGCGGACACATCGCGGCGGCCGGCGGCCCCAACGGCATCGCCCGCGGGGGAGCCTCCAGT
TATGGCCGCACCCCCATGCGGGCGGGCGCGCACACGCCGACTTACCGCGAGGCGGGGCTG
AAGACGCCGCTCCAGGGCAACGCAACGCCGATCTACGAGGCGGGAGCTCGCACGCCTCAC
TACGGGTCCAGCACGCCGGCGCACGAGGGCGGCAGGACACCGGCCCACCCCGCCTGGGAC
GCCGCCGCCCACACGCCGCGTCCCGACCACGATCTGCTGCTGGCGTCCGCCTCTCCTCCG
CCCGCCGCCTCCTCCTCGCACTACGACGCCGCCTACCAGCAGGGGCCCTTCACGCCGCAG
ACGCCGGGCACCATGTACGGCTCCGATCACACCTACAGCCCGTACCGACCCAGCCCGAGC
CCCGGCACTTACGCCGGCTACCTGGCCACACCCAGCCCGGCGCCCTACTCGCCCCGCTCG
CCCTACACGGCCGAGGACGCCGACGACTGGCACGCGCCCGACCTGGAGGTACGCGTGCGG
GGCGGAGCGGAGCCGGGCCTGCGGGGGCAGGCGGGAGCGCTGCGGAGCGTGTCGGGCGCC
ACGTGCGCCGTGTACCTGCCGCTGGAGGACCGCGTGCTCAACCTGCCCGCGCACCTGCTG
GAGCCCGTGGTGCCTCACAGCGGGGACCGGGTCAAGGTGATCGCGGGCGAGGACCGGGAG
GCGGTCGGCCAGCTCATCTCCATCGAGAACCAGGAGGGGGTCGTGAAGTTCGGCTCCGAC
GACATCAAGATCATGCAGCTGAGACATCTCTGCAAGATGGCCTCCAACTGA

Protein sequence:

MSDSEGSNYSGSGSDAGSVVSNRSRRSAASNRSAKSRSRSRSRSRSRSAGSDGSRNRDDE
AKEASGDEEVEDEQEPEGEDLVDSEEYDEDEEEERRRKKRKKDSRYGGFIIDEAEVDDEV
DEDDEWEEGAQEMGIVGNEVDEIGPTAREIEGRRRGTNLWDSQKEEEIEEYLRNKYADES
AALRHFGEGGEEMSDEITQQTLLPGIKDPNLWMVKCRIGEEKATVLLLMRKFITYQNSEE
PFQIKSVVAPEGVKGFIYIEAYKQTHVKAIIDKVGNLRMGTWKQEMVPIKEMTDVLRVVK
EQSGLKPKQWVRLKRGLYKDDIAQVDYVDLAQNQVHLKLLPRIDYTRLRGALRTVQSESE
AAKRKKKRRPAAKPFDPEAIRAIGGEVTSDGDFLIFEGNRYSRKGFLYKNFTMSAILAEG
VKPTLTELERFEEQPEGIDIELAAPAKDDPTSLHSFSMGDNVEVCSGDLANLQARIIAID
GSMITVMPRHDALKDPLVFKPNELRKYFKQGDHVKVLAGRYEGDTGLIVRVEPHRAVLVS
DVTMHELEVLPRDLQLCSDMATGVDSLGQFQWGDMVLLDSQTVGVIVRLERENFHVLGMQ
GKVIECKPQALQKRRENRFTMALDSEHNSIQKKDIVKVIDGPHAGREGEIKHLYRNFAFL
QSRMYPDNGGIFVCKTRHLQLAGGAKNAAASNGLALAFMSPRIQSPMHPSGRGGGRGRGR
GGRGAVARDRELIGQTINRDATGSTARVELHTMCQTISVDRGHIAAAGGPNGIARGGASS
YGRTPMRAGAHTPTYREAGLKTPLQGNATPIYEAGARTPHYGSSTPAHEGGRTPAHPAWD
AAAHTPRPDHDLLLASASPPPAASSSHYDAAYQQGPFTPQTPGTMYGSDHTYSPYRPSPS
PGTYAGYLATPSPAPYSPRSPYTAEDADDWHAPDLEVRVRGGAEPGLRGQAGALRSVSGA
TCAVYLPLEDRVLNLPAHLLEPVVPHSGDRVKVIAGEDREAVGQLISIENQEGVVKFGSD
DIKIMQLRHLCKMASN