MonarchBase - Protein-coding gene

DPGLEAN02320 in OGS1.0

New model in OGS2.0	DPOGS206294
Genomic Position	scaffold1947:- 10365-20868
	See gene structure
CDS Length	3393
Paired RNAseq reads	1897
Single RNAseq reads	4669
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA010804 (0.0)
Best Drosophila hit	RNA polymerase I 135kD subunit (0.0)
Best Human hit	DNA-directed RNA polymerase I subunit RPA2 isoform 1 (0.0)
Best NR hit (blastp)	PREDICTED: similar to CG4033-PA, partial [Nasonia vitripennis] (0.0)
Best NR hit (blastx)	PREDICTED: similar to CG4033-PA, partial [Nasonia vitripennis] (0.0)
GeneOntology terms	GO:0006360 transcription from RNA polymerase I promoter GO:0003899 DNA-directed RNA polymerase activity GO:0005736 DNA-directed RNA polymerase I complex GO:0005634 nucleus GO:0003677 DNA binding GO:0032549 ribonucleoside binding
InterPro families	IPR015712 DNA-directed RNA polymerase, subunit 2 IPR007120 DNA-directed RNA polymerase, subunit 2, domain 6 IPR007644 RNA polymerase, beta subunit, protrusion IPR007645 RNA polymerase Rpb2, domain 3 IPR007641 RNA polymerase Rpb2, domain 7 IPR009674 RNA polymerase I, Rpa2 specific IPR007642 RNA polymerase Rpb2, domain 2 IPR007121 RNA polymerase, beta subunit, conserved site
Orthology group	MCL14987

Nucleotide sequence:

ATGGATCCCAAAAAGATCCTACACGAACCGTCTTTGAAGTATACTAGTAATCCTGATTAT
AGAAGACCACCAAAAACCGCTAACCCGTACTTACAATGTCTGGGAACTCCGCATATAGAT
TCATTCAATTACATGATCAAAGATGGATTAAAAGCTGCCATAGATGATTTAATTCCCGTC
GAATTTGATGTGCCAAGCGGAGAAAGAATTAAAATAACTATAGATGAAGCTGCTTTCGCG
AAACCAAGTGTTCCTATGGAGGCTGTAGGAGTTAAAAATCAAATAGTCTTGCCGACAGAA
TGCAGACAAAGAGCAGCTACATATAAAGGAGATTTCAAAGTTAGATTATCTTTTACCGTT
GATGGGAAGACCATATCAATGGACAGATCCCTCGGCAGTTTGCCAATCATGTTAAAGTCC
AAAGTTTGCCACTTGGCTGACCTGTCTCCTGAGGAACTGGTGAAGAAGAATGAACATGCG
GACGAGTGGGGCGGATACTTTATTATTAAGGGTCATGAACGTCTGGCTCGCATGTTGTTA
GTCACCAGACGGAATTACCCCGTCGCTATCAAGAGATCCGGTTGGAGGATGAGAGGGAAT
CTGTTCACGGATTACGGTGTGCTCATGAGATGTGTGAAACCAGATCAAACTAGTACTAAC
AACGTACTGCATTTTCTCCAAAATGGAACTTGCAAATTAATGTTCTCTCATCGTAAAGTG
ATGTACTACGCTCCGCTGGTGCTGATACTAAAGTGTCTCGTGGACTGGCCCGACCATTAC
ATATACAGATTACTCCTACACGGAAAGAAGAATGACTTGTATTATGTTAACTGTGTGCAG
AACATGCTCCGGGAACTTCACGAGCAGGATCTCCATACTTCTGTTGAATGTCGTTCCTAC
ATGGGTCGTATGTTCAGAGCACGGCTGGATCTTCCGCCGGATGCTACAGATCTGGATGCT
GCGAACTTCCTGTTAGTGAGGTGCATCATGATACACCTGAACGATTACAAGGATAAGTTC
TACGGATTGGTGTTCATGAATCAGAAGCTGTTCGATCTGGTGCAGAATAAATGCAAGGTG
GAGGGAGCTGATGCTGTGATGGTGCAGGAGTTGCAGGTGGGAGGTCACCTGTACTTGCAG
GTGTTGAAGGAACGCCTCCAGACCTTGCTTTACGTCCTCAAAGCCAATATCATCAAGAAG
TCTAAAACCAGCAGATTGTCGCTGACTTCGAAAGAACTGCAGCAAATAATACGTTCAGCC
GGCGGCCTGGAACAGAAGATGGAGACGTTCCTAGCGACTGGTAACGCTCCGTCCAACAAC
GTCAACCTGGCGCAGTACAAAGGACTGACCATAGTCGCTGAAAACCTCAACAGAATGAGA
TACATGTCGCATTTCAAGGCGATACATCGCGGTTCGTTCTTCATGGAGATGCGTACGACG
GAGGCACGTCAACTGTTGCCAGATGCTTGGGGCTTCGTGTGTCCCGTACATACGCCCGAT
GGAGCACCCTGTGGCTTACTCAACCATCTCACCGCCTCCGCACAGGTCACCCAACAACCC
GATCCCAAGCAAGTGTCATCTCTACCGGCCGTTCTCGAGAAATGCGGGATGGACCCTATA
AGCTCTGTGGCCCACACTCCGTTGACCCACGATGTCTACAAATATCCGGTATTCATAGAT
GGTAGGCTGGTGGGCTATTTCAATGAGGACACTGCCCTGAAATCGGTGTCATACCTCCGA
ACGTTGAAGGTCAAAGGTGAAGACGTGCCTATATCCACTGAGATTGTTATGGTGCCTAAA
AAACAGATACCGGCCCAATATGCCGGCGTGTTTCTATTCACGAGCGAAGCGCGCATGATG
CGGCCGGTCATTAATCTGTCGACGGGTCAACTTGAACTGGTCGGCACTATGGAACAACTC
TACTTGGACATAGCCGTAGCACAGACAGAGATCATCAAAGGCAAAACCACCCACTTGGAG
TTATCGAAATCAGCGTTTATGAGTAATTTGGCCCAACTAGTTCCCATGCCGGACTGCAAC
CAATCACCGCGTAACATGTACCAGTGTCAGATGGGTAAACAAACGATGGGAACCCCTATC
CATACTTGGTCTACGAACGCTGAGACCAAGTTATACCGGTTGCAGACGGGTGCTACGCCG
CTCTTCCGGCCGGTACACCACGACAACCTCAGTCTAGACGACTATCCTTCCGGCACAAAC
GCAATACTCGCCGTTATATCCTACACAGGCTACGATATGGAAGACGCCATGATAATAAAC
AAATCGTCGTACGAGCGAGGTTTCGCAGCGGGTTCCGTATACAAATCCAACTTCGCGGAA
CTGAAGAGCTCGTCTTCATACTTCTGCCGCGACCCCACGAGAACTGACCTCGCGGCTTAC
ATGGACGAGGACGGACTCCCGGCCGTGGGGGCGAGGATACAACCCGAGGATCCCTTCTAC
TGCCACTACGACAGCGACAGTTCAAAGTTCGTGGTAACGAAATACCACGGCAAGGAGGAG
GTTGTGGTGGACAGTGTGAGGCTCTGCGGGGAGTTCAGCAGCAAGGCTCCCAAAAAAGCT
TGCATCATGGTCAGAGTGCAGCGCAATCCGACGGTTGGTGACAAATTCGCTTCACGAGCT
GGTCAAAAGGGAATCTGTTCCCAGAAATGGCCGGCCGAGGACTTACCCTTCACTGAATCG
GGCCTCATACCGGACGTGCTGTTCAATCCGCACGGCTTCCCCTCGCGGATGACCATCGCC
ATGATGATAGAGTGTATGGCGGGGAAAGCCGCCTGTGCCTGCACGGACACGTCGGTCCAC
GACGCTACGCCGTTCCGCTTCAACGAACAGGACACGGCCATCAATTACTTCGGGCGCCTG
CTGGAGGCCGGCGGCTACAACTACTACGGCACGGAGAGGATCTACAGCGGCGTCGACGGC
CGCGAGATGCAGGCCGACATATTCTGCGGACTAGTGCACTACCAGCGGCTGCGGCACATG
GTGTCCGACAAGTGGCAGGTCCGCACGACCGGGGCCGTGGACGCTCTCACCCGTCAGCCC
GTGAAGGGGCGGCGGCGCGGAGGAGGAGTAAGGCTCGGAGAAATGGAAAGGGACGCGCTC
TTAGCACACGGAGCCACTTTTCTACTACAAGACAGACTCTTCCACTGTTCAGACAAGAGC
GAGGCTATTATTTGCTCCAAATGCGGCACACTCCTCGGTCCGATATCTGGTAACACCGAG
GGTAGCAAGGACACGTGCCGCTTGTGCGGCGAGGGGAACTTGTTGCTCATATCGATACCC
TATATATTCAAGTTCTTTGTGACCCAGTTGGCCTCCGTCAATATTAATATTAAAATCAAC
TGTAACAGCAACTTGGCGATAGGAAGCTGCTGA

Protein sequence:

MDPKKILHEPSLKYTSNPDYRRPPKTANPYLQCLGTPHIDSFNYMIKDGLKAAIDDLIPV
EFDVPSGERIKITIDEAAFAKPSVPMEAVGVKNQIVLPTECRQRAATYKGDFKVRLSFTV
DGKTISMDRSLGSLPIMLKSKVCHLADLSPEELVKKNEHADEWGGYFIIKGHERLARMLL
VTRRNYPVAIKRSGWRMRGNLFTDYGVLMRCVKPDQTSTNNVLHFLQNGTCKLMFSHRKV
MYYAPLVLILKCLVDWPDHYIYRLLLHGKKNDLYYVNCVQNMLRELHEQDLHTSVECRSY
MGRMFRARLDLPPDATDLDAANFLLVRCIMIHLNDYKDKFYGLVFMNQKLFDLVQNKCKV
EGADAVMVQELQVGGHLYLQVLKERLQTLLYVLKANIIKKSKTSRLSLTSKELQQIIRSA
GGLEQKMETFLATGNAPSNNVNLAQYKGLTIVAENLNRMRYMSHFKAIHRGSFFMEMRTT
EARQLLPDAWGFVCPVHTPDGAPCGLLNHLTASAQVTQQPDPKQVSSLPAVLEKCGMDPI
SSVAHTPLTHDVYKYPVFIDGRLVGYFNEDTALKSVSYLRTLKVKGEDVPISTEIVMVPK
KQIPAQYAGVFLFTSEARMMRPVINLSTGQLELVGTMEQLYLDIAVAQTEIIKGKTTHLE
LSKSAFMSNLAQLVPMPDCNQSPRNMYQCQMGKQTMGTPIHTWSTNAETKLYRLQTGATP
LFRPVHHDNLSLDDYPSGTNAILAVISYTGYDMEDAMIINKSSYERGFAAGSVYKSNFAE
LKSSSSYFCRDPTRTDLAAYMDEDGLPAVGARIQPEDPFYCHYDSDSSKFVVTKYHGKEE
VVVDSVRLCGEFSSKAPKKACIMVRVQRNPTVGDKFASRAGQKGICSQKWPAEDLPFTES
GLIPDVLFNPHGFPSRMTIAMMIECMAGKAACACTDTSVHDATPFRFNEQDTAINYFGRL
LEAGGYNYYGTERIYSGVDGREMQADIFCGLVHYQRLRHMVSDKWQVRTTGAVDALTRQP
VKGRRRGGGVRLGEMERDALLAHGATFLLQDRLFHCSDKSEAIICSKCGTLLGPISGNTE
GSKDTCRLCGEGNLLLISIPYIFKFFVTQLASVNINIKINCNSNLAIGSC