MonarchBase - Protein-coding gene

DPGLEAN12615 in OGS1.0

New model in OGS2.0	DPOGS211146
Genomic Position	scaffold230:+ 81655-85185
	See gene structure
CDS Length	3531
Paired RNAseq reads	3059
Single RNAseq reads	7555
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA003018 (0.0)
Best Drosophila hit	RNA polymerase II 140kD subunit (0.0)
Best Human hit	DNA-directed RNA polymerase II subunit RPB2 (0.0)
Best NR hit (blastp)	AGAP003648-PA [Anopheles gambiae str. PEST] (0.0)
Best NR hit (blastx)	PREDICTED: similar to AGAP003648-PA [Tribolium castaneum] (0.0)
GeneOntology terms	GO:0005665 DNA-directed RNA polymerase II, core complex GO:0003899 DNA-directed RNA polymerase activity GO:0006366 transcription from RNA polymerase II promoter GO:0032549 ribonucleoside binding GO:0003677 DNA binding
InterPro families	IPR007120 DNA-directed RNA polymerase, subunit 2, domain 6 IPR014724 RNA polymerase Rpb2, OB-fold IPR007644 RNA polymerase, beta subunit, protrusion IPR007642 RNA polymerase Rpb2, domain 2 IPR007641 RNA polymerase Rpb2, domain 7 IPR007646 RNA polymerase Rpb2, domain 4 IPR007645 RNA polymerase Rpb2, domain 3 IPR007647 RNA polymerase Rpb2, domain 5 IPR015712 DNA-directed RNA polymerase, subunit 2 IPR007121 RNA polymerase, beta subunit, conserved site
Orthology group	MCL10220

Nucleotide sequence:

ATGTATGATACAGAAGATGATCAGTATGAGGAAGAAGAAGTCGAAGATATTTCGTCTGAA
TTATGGCAGGAGGCCTGCTGGATAGTAATAAACGCATATTTCGATGAGAAAGGTCTAGTA
AGGCAACAACTCGATAGTTTCGATGAATTCATACAAATGTCAGTCCAACGAATTGTCGAA
GATTCCCCTCCCATAGAACTGCAAGCTGAAGCTCAACATTCATCCGGTGAAATAGAGACA
CCGCCAAAATACCATTTAAAATTTGATCAAATTTATCTTTCTAAACCAACTCATTGGGAA
AAAGACGGAGCGCCATCCCCTATGATGCCTAATGAAGCTCGCCTACGTAATTTAACTTAC
TCTGCACCTTTGTATGTTGATATAACAAAAACCATAGTCAAAGAAAATGAAGATCCTATT
GAGACGCAACATCAAAAAACGTTTATTGGAAAAATTCCAATTATGCTCAGATCTACATAT
TGTTTACTGAGCAATTTGACTGACCGTGATTTGACTGAGTTAAATGAATGTCCTTTAGAC
CCTGGTGGTTATTTTATTATCAATGGCTCTGAAAAGGTGCTAATTGCTCAAGAAAAAATG
GCTACAAATACTGTGTATGTTTTCAGTATGCAGGGTGGTAAATATGCTTATAAAACTGAG
ATAAGATCTTGCCTTGAACATAGCTCAAGGCCTACATCTACTCTATGGGTTAATATGATG
GCAAGAGGAGGACAGAGTATTAAAAAGTCGGCAATTGGTCAGAGGATTGTGGCTATTGTT
CCATATATCAAACAGGAAATTCCTATCATGATAGTATTTAGAGCATTGGGTTTTGTGGCA
GACAGAGATATTCTAGAACATATCATTTATGACTTTGATGACCCCGAAATGATGGAAATG
GTTAAGCCTTCTTTGGATGAAGCTTTTGTTATTCAAGAACAAAATGTTGCTCTTAGCTTC
ATTGGTGCCAGAGGAGCCCGTCCTGGTGTCACTAAAGAGAGGCGTATCAAATATGCAAGA
GAAATTTTGCAAAAGGAAATGCTGCCTCATGTTGGTGTATCTGATTTTTGTGAAACAAAA
AAAGCATACTTTCTAGGTTACATGGTACATAGATTACTTTTAGCTGCTTTGGGTAGAAGA
GAGTTGGATGACAGAGATCATTATGGAAATAAACGACTTGATTTAGCTGGACCATTATTA
GCATTTCTGTTCAGAGGTCTCTTCAAGAATTTATTAAAAGAAGTAAGAATGTACGCTCAG
AAATTCATTGACAAAGGAAAAGATTTTAATCTGGAATTGGCAATCAAAACAAAAATTATT
ACCGATGGTTTGAGATATTCTTTGGCTACTGGAAATTGGGGTGACCAAAAGAAAGCTCAT
CAGGCAAGAGCCGGAGTATCACAGGTATTGAACAGACTAACCTTTGCCTCTACTTTATCT
CACTTGAGGCGTGTCAACTCCCCAATTGGTCGTGACGGCAAACTAGCAAAACCACGTCAG
TTACACAATACTTTGTGGGGAATGATATGTCCTGCTGAAACACCAGAAGGAGCTGCTGTC
GGTTTGGTCAAGAATTTGGCATTAATGGCTTACATTTCTGTCGGAAGTCAGCCATCTCCC
ATATTAGAGTTCTTGGAAGAGTGGTCTATGGAAAATTTGGAGGAAATAGCTCCATCAGCC
ATTGCAGATGCTACAAAAATTTTCGTTAATGGCTGTTGGGTCGGTATACACAGAGATCCA
GAGCAATTAATGGCTACATTGCGTAAACTCAGACGTCAAATGGACATTATAGTCTCTGAA
GTAAGTATGATCCGAGACATAAGAGATAGAGAAATAAGAATTTATACTGATGCTGGAAGA
ATTTGTAGACCATTACTTATTGTTGAGAATGGATCTTTACTATTGAAGAAGAAACATATT
GATCAATTAAAAGAAAGAGATTATAATAATTATGGTTGGCAGAACTTGGTAGCAAGTGGT
GTCGTTGAATATATTGACACCCTGGAAGAAGAAACTGTAATGATTGCTATGAACCCTGAT
GATTTACAACAAATAAAAGAATATGCTTATTGTACTACATACACTCATTGTGAGATTCAC
CCTGCTATGATATTAGGTGTATGCGCCTCTATTATTCCATTCCCAGATCATAATCAAAGT
CCGAGAAACACTTACCAAAGTGCTATGGGCAAACAAGCTATGGGAGTATATATCACAAAC
TTCCATGTTAGAATGGACACATTAGCTCATGTTCTGTTCTATCCACATAAACCCTTGGTT
ACTACCAGATCTATGGAATATCTTCGCTTCAGAGAGCTGCCAGCTGGAATCAATTCAATT
GTAGCCATTTTATGTTACACTGGATATAATCAAGAGGACAGTGTCATCTTAAACGCTTCA
GCTGTAGAGAGAGGGTTCTTCAGATCAGTGTTCTATCGTTCTTATAAAGACTCGGAATCT
AAGAGAATCGGTGATCAAGAAGAGCAATTTGAAAAACCAACAAGACAGACGTGTCAAGGG
ATGAGGAATGCTTTGTATGACAAATTGGATGATGACGGAATTATTGCTCCGGGTATAAGA
GTTTCTGGAGATGATGTAGTAATTGGAAAAACAATTACGTTACCAGAAAATGACGATGAG
TTGGAAGGCACCACGAAACGCTTCACCAAAAGAGACGCTTCGACATTTTTACGTAACAGT
GAAACTGGAATTGTCGATCAAGTTATGTTAACGTTGAATAGCGAAGGATATAAGTTCTGC
AAAATTAGGGTTAGATCAGTACGCATACCACAGATTGGCGACAAGTTTGCATCACGGCAC
GGACAAAAAGGAACCTGTGGGATCCAATACAGGCAAGAAGACATGCCCTTCACTTGTGAG
GGGATCACTCCAGACATTATTATTAACCCACACGCCATCCCATCCCGTATGACAATTGGT
CACTTGATTGAATGTATTCAGGGGAAAGTGTCATCGAACAAAGGCGAAATAGGTGACGCA
ACACCGTTTAACGACGCTGTTAACGTGCAAAAGATTTCTTCACTTCTACAAGAATATGGT
TATCATCTTAGAGGTAATGAAGTAATGTATAACGGTCACACTGGCAGAAAGATCAACGCC
CAAGTGTTCCTGGGGCCCACGTACTATCAACGGTTGAAGCATATGGTGGACGACAAAATT
CACTCCAGAGCCCGAGGACCAGTACAGATTTTAGTTCGACAGCCCATGGAGGGTAGGGCT
CGGGACGGTGGATTGCGTTTCGGGGAAATGGAGCGTGATTGTCAAATAGCTCACGGAGCC
GCTCAGTTTTTGAGAGAGCGATTGTTCGAGGTTTCAGATCCTTACCGCATACACGTTTGC
AATTTCTGCGGTTTGATAGCAATAGCCAACCTCCGTAACAATACATTCGAATGCAAAGGA
TGCAAAAATAAAACACAGATTTCTCAAGTGAGGCTGCCTTACGCTGCAAAGTTGTTGTTC
CAAGAACTCATGTCTATGAACATCGCCCCCAGACTTATGGTCGTAAATTAA

Protein sequence:

MYDTEDDQYEEEEVEDISSELWQEACWIVINAYFDEKGLVRQQLDSFDEFIQMSVQRIVE
DSPPIELQAEAQHSSGEIETPPKYHLKFDQIYLSKPTHWEKDGAPSPMMPNEARLRNLTY
SAPLYVDITKTIVKENEDPIETQHQKTFIGKIPIMLRSTYCLLSNLTDRDLTELNECPLD
PGGYFIINGSEKVLIAQEKMATNTVYVFSMQGGKYAYKTEIRSCLEHSSRPTSTLWVNMM
ARGGQSIKKSAIGQRIVAIVPYIKQEIPIMIVFRALGFVADRDILEHIIYDFDDPEMMEM
VKPSLDEAFVIQEQNVALSFIGARGARPGVTKERRIKYAREILQKEMLPHVGVSDFCETK
KAYFLGYMVHRLLLAALGRRELDDRDHYGNKRLDLAGPLLAFLFRGLFKNLLKEVRMYAQ
KFIDKGKDFNLELAIKTKIITDGLRYSLATGNWGDQKKAHQARAGVSQVLNRLTFASTLS
HLRRVNSPIGRDGKLAKPRQLHNTLWGMICPAETPEGAAVGLVKNLALMAYISVGSQPSP
ILEFLEEWSMENLEEIAPSAIADATKIFVNGCWVGIHRDPEQLMATLRKLRRQMDIIVSE
VSMIRDIRDREIRIYTDAGRICRPLLIVENGSLLLKKKHIDQLKERDYNNYGWQNLVASG
VVEYIDTLEEETVMIAMNPDDLQQIKEYAYCTTYTHCEIHPAMILGVCASIIPFPDHNQS
PRNTYQSAMGKQAMGVYITNFHVRMDTLAHVLFYPHKPLVTTRSMEYLRFRELPAGINSI
VAILCYTGYNQEDSVILNASAVERGFFRSVFYRSYKDSESKRIGDQEEQFEKPTRQTCQG
MRNALYDKLDDDGIIAPGIRVSGDDVVIGKTITLPENDDELEGTTKRFTKRDASTFLRNS
ETGIVDQVMLTLNSEGYKFCKIRVRSVRIPQIGDKFASRHGQKGTCGIQYRQEDMPFTCE
GITPDIIINPHAIPSRMTIGHLIECIQGKVSSNKGEIGDATPFNDAVNVQKISSLLQEYG
YHLRGNEVMYNGHTGRKINAQVFLGPTYYQRLKHMVDDKIHSRARGPVQILVRQPMEGRA
RDGGLRFGEMERDCQIAHGAAQFLRERLFEVSDPYRIHVCNFCGLIAIANLRNNTFECKG
CKNKTQISQVRLPYAAKLLFQELMSMNIAPRLMVVN