MonarchBase - Protein-coding gene

DPGLEAN04878 in OGS1.0

New model in OGS2.0	DPOGS211165
Genomic Position	scaffold855:- 15739-20716
	See gene structure
CDS Length	2622
Paired RNAseq reads	5905
Single RNAseq reads	14810
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA003151 (8e-08)
Best Drosophila hit	topoisomerase 1, isoform C (1e-174)
Best Human hit	DNA topoisomerase 1 (1e-167)
Best NR hit (blastp)	hypothetical protein TcasGA2_TC010428 [Tribolium castaneum] (0.0)
Best NR hit (blastx)	PREDICTED: similar to conserved hypothetical protein [Tribolium castaneum] (0.0)
GeneOntology terms	GO:0006265 DNA topological change GO:0003917 DNA topoisomerase type I activity GO:0005634 nucleus GO:0005703 polytene chromosome puff GO:0005730 nucleolus GO:0005719 nuclear euchromatin GO:0007275 multicellular organismal development GO:0003916 DNA topoisomerase activity GO:0005665 DNA-directed RNA polymerase II, core complex GO:0005737 cytoplasm GO:0030261 chromosome condensation GO:0009790 embryo development GO:0002168 instar larval development GO:0008283 cell proliferation GO:0048477 oogenesis GO:0007059 chromosome segregation GO:0006268 DNA unwinding involved in replication GO:0003918 DNA topoisomerase (ATP-hydrolyzing) activity GO:0005875 microtubule associated complex
InterPro families	IPR013499 DNA topoisomerase I, C-terminal, eukaryotic-type IPR013500 DNA topoisomerase I, catalytic core, eukaryotic-type IPR008336 DNA topoisomerase I, DNA binding, eukaryotic-type IPR018521 DNA topoisomerase I, active site IPR013030 DNA topoisomerase I, DNA binding, mixed alpha/beta motif, eukaryotic-type IPR014711 DNA topoisomerase I, catalytic core, alpha-helical subdomain, eukaryotic-type IPR014727 DNA topoisomerase I, catalytic core, alpha/beta subdomain, eukaryotic-type IPR011010 DNA breaking-rejoining enzyme, catalytic core IPR009054 DNA topoisomerases I, dispensable insert, eukaryotic-type IPR001631 DNA topoisomerase I, C-terminal
Orthology group	MCL11563

Nucleotide sequence:

ATGAGTGTTGAAAATCCAGCCAGTGATGATGGTGATTCAGGAAAAGTAAATGGAAATAAA
AGTGAACACGTGAACGGCATTCAAAACGGATACAGCAGCTCCGAGAAGCACAAAAGCAGC
CACAAATCATCTAGTAAAGATAAACATCGCGACAAAGAACGTGACCACAAAAGCTCGAAA
CATAGCAGCAGTTCAAGCAGAGACAAAGATAAGGATCGTCATTCAAGCAATAAAAATCAT
AGCAGCTCCCACAAGTCATCCAGCAGAGATAAAGAACGGGATAGGGAACACAGAGACGAC
AAACATAAGGATAGAGAAAGATCTGATAGAGAGAGAAGTGATAAAGATAGGGACAGGCAC
AAGAGTGACAAAGACAGACATAGGGAGAGGAGTGAAAAAGATAAAGATAGAAGTGAAAAA
GATAAACATAAATCCAGTAATGGTGAGAAGAAGTCTTCAAAGGAACATTCATCTTCATCT
AGGGACAAAGATAAATCAAAGGATACAGATAAACACAGGGACCATGATAAAGACAGAAGT
TACAAAGAAAAACATAGAAGCGATAAAGACAGACACTCCAGCTCAAAGGAGAAACACAGT
TCTAGTAAAAGTAAGGAAAAAAGTAGTTCTGAAAAAAATGACAAAGTCAAATTGGAAGAG
GAGTATCGGGATTCATCGATGAAACAGGAATACATGGAGGTTGACGAACCAACAGTAAAG
AGGGAAATGAAATCTGAAAGCGATGATGGCTATGGGGGGGCTCTTAATACGACTGTATCA
TCATGTGACTATTCACTATCACAGTTCAAAGATGAACCTTTGTCGGAGATGCCCCTTGAG
GAAGACAGTGCATCTGGCGGAGAGGAAGATGTACCACTGTTAGAGCGTAAGGCAATCAAA
AAAAGAGCTATCAGTGAGAGTGAAGAAGACACACCACTGTTACAACGGAAGAAACAGAAA
AAGAAAGTGAAGAAAGAAAATTATGATGACTACGATGATGAAGAATCGCAACAGAAAAAG
AAGGCGAAGAAAACGAAATCCACAAAAAGCATCAAGACTGAAGCTGATGATGGCCCGAGC
CCCACCAAACGGAAGAAAAAAGAAAATGAAGAACAGGAAGTCTGGAAATGGTGGGAAGAA
TCAAAAACGGACGATGGAACTAAGTGGCATTTTCTTGAACACAAAGGTCCCCTGTTTGCA
CCTCTATACGAACCGCTGCCAGAAAACGTTAAATTTCGTTATGACGGTAAAATAGTGCGG
CTTGTGTCAGAAAAGAATAAGAATCGCAGTAAAGAAGAGAAAGCAGCACTCAAAGCAAAG
AATGAGGAAATCCAAAAGGAATATGGTTTTTGTACTATTGATGGACATAAAGAAAAAATT
GGTAATTTTAGAATAGAGCCACCCGGCCTCTTTAGGGGTAGAGGTGAACATCCCAAGATG
GGAATGTTGAAGAGGCGTGTGATGCCAGAAGACGTAATAATTAACTGTTCAAAAGACAGT
AAGATACCAAAACCACCGGCTGGTCACAAATGGAAGGAAGTTAGACACGACAACACTGTA
ACATGGTTGGCATCATGGACAGAAAATGTTCAGCAGCAAGCCAAGTATGTCATGTTAAAT
CCCAGCTCCAAATTGAAGGGCGAAAAGGATTGGCAGAAATATGAAACGGCAAGAAATTTG
CACAAATGTATCGATAAAATTAGAGAAACATATAAATCAGATTGGAAAGCTAAAGAGATG
CGCGTCCGTCAACGTGCTGTGGCTTTGTATTTCATTGATAGACTGGCTTTAAGAGCAGGT
AATGAGAAGGATGATGACCAAGCTGATACAGTCGGTTGTTGTTCCCTCCGCGTTGAGCAC
ATTGAATTGCACAAAGAGAAAGATGGAAAGGAATTTGTGGTTGTGTTTGATTTCCTCGGT
AAAGACTCTATTAGATATTACAATGAGGTGCCAGTAGAAAAACGTGTTTTTAAGAATCTC
GAGATTTTCATGGAAAATAAAAAGGATAGTGATGATCTGTTTGACAGATTGAACACGCAG
ACTCTGAATGAACATTTAAAAGAATTGATGCCAGGGCTGACCGCTAAAGTTTTCCGTACC
TACAACGCGTCCATAACGTTACAAAGACAACTGGAAGAGCTCACCGACCCCGATGCAACC
ATACCTGAGAAAATATTAGCTTATAACCGGGCAAATCGAGCCGTCGCCATACTTTGTAAC
CATCAGCGCGCGGTCCCCAAAGGTCATTCAAAGTCAATGGAAGCATTGAAAGAAAAAATT
CAAGCTAAAAGAGACCAGGTTGATGAGGCCGAGGCTGATTATAGAGATGCAGCGAAGGCA
GCTAAACGAGGCTCGGTAAAAGAAAAGTTAGCTTGTGACAAGAAGAAAAAAGCGCTAGAG
CGGTTAAAGGAGCAGTTAAAGAAATTGGAGCTCCAAGAAACAGATCGTGATGAAAACAAA
ACAATAGCCCTCGGAACCTCCAAACTCAACTACCTTGATCCGAGGATCTCAGTGAGCTGG
TGCAAGAAACACGGTGTACCAATTGAAAAAATATACAATAAAACGCAACGTGATAAATTC
CGATGGGCTATTGACATGGCCGGGCCCGACTACATTTTCTAG

Protein sequence:

MSVENPASDDGDSGKVNGNKSEHVNGIQNGYSSSEKHKSSHKSSSKDKHRDKERDHKSSK
HSSSSSRDKDKDRHSSNKNHSSSHKSSSRDKERDREHRDDKHKDRERSDRERSDKDRDRH
KSDKDRHRERSEKDKDRSEKDKHKSSNGEKKSSKEHSSSSRDKDKSKDTDKHRDHDKDRS
YKEKHRSDKDRHSSSKEKHSSSKSKEKSSSEKNDKVKLEEEYRDSSMKQEYMEVDEPTVK
REMKSESDDGYGGALNTTVSSCDYSLSQFKDEPLSEMPLEEDSASGGEEDVPLLERKAIK
KRAISESEEDTPLLQRKKQKKKVKKENYDDYDDEESQQKKKAKKTKSTKSIKTEADDGPS
PTKRKKKENEEQEVWKWWEESKTDDGTKWHFLEHKGPLFAPLYEPLPENVKFRYDGKIVR
LVSEKNKNRSKEEKAALKAKNEEIQKEYGFCTIDGHKEKIGNFRIEPPGLFRGRGEHPKM
GMLKRRVMPEDVIINCSKDSKIPKPPAGHKWKEVRHDNTVTWLASWTENVQQQAKYVMLN
PSSKLKGEKDWQKYETARNLHKCIDKIRETYKSDWKAKEMRVRQRAVALYFIDRLALRAG
NEKDDDQADTVGCCSLRVEHIELHKEKDGKEFVVVFDFLGKDSIRYYNEVPVEKRVFKNL
EIFMENKKDSDDLFDRLNTQTLNEHLKELMPGLTAKVFRTYNASITLQRQLEELTDPDAT
IPEKILAYNRANRAVAILCNHQRAVPKGHSKSMEALKEKIQAKRDQVDEAEADYRDAAKA
AKRGSVKEKLACDKKKKALERLKEQLKKLELQETDRDENKTIALGTSKLNYLDPRISVSW
CKKHGVPIEKIYNKTQRDKFRWAIDMAGPDYIF