MonarchBase - Protein-coding gene

DPGLEAN02886 in OGS1.0

New model in OGS2.0	DPOGS212816
Genomic Position	scaffold6103:+ 131-7609
	See gene structure
CDS Length	3219
Paired RNAseq reads	1236
Single RNAseq reads	3306
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA000760 (0.0)
Best Drosophila hit	CG17209 (0.0)
Best Human hit	DNA-directed RNA polymerase III subunit RPC1 (0.0)
Best NR hit (blastp)	AGAP004703-PA [Anopheles gambiae str. PEST] (0.0)
Best NR hit (blastx)	AGAP004703-PA [Anopheles gambiae str. PEST] (0.0)
GeneOntology terms	GO:0006383 transcription from RNA polymerase III promoter GO:0003899 DNA-directed RNA polymerase activity GO:0005666 DNA-directed RNA polymerase III complex GO:0003677 DNA binding GO:0008270 zinc ion binding GO:0032549 ribonucleoside binding
InterPro families	IPR006592 RNA polymerase, N-terminal IPR015700 DNA-directed RNA polymerase III largest subunit IPR007081 RNA polymerase Rpb1, domain 5 IPR000722 RNA polymerase, alpha subunit IPR007066 RNA polymerase Rpb1, domain 3 IPR007083 RNA polymerase Rpb1, domain 4 IPR007080 RNA polymerase Rpb1, domain 1
Orthology group	MCL11440

Nucleotide sequence:

ATGGTCATCCCCACAAACAAGTGGACTGCCTTATTAGTTTTCATCCAAAATTTATTATTC
CAGCCCAAAAAACCGGGTCGTGGTCTGGTTCAAAGGCTGAAAGGCAAGCAAGGTCGCTTC
CGTGGGAATCTATCAGGAAAGAGAGTGGATTTTTCAAGCAGAACTGTCATCTCACCGGAT
CCCAACCTACAGATACAGGAGGTGGGTGTTCCTGTGCATGTGGCCAAGATCCTGACGTAC
CCGGAGCGCGTGTTCCCGGCCAACCTCCAGTGGCTCCGACAGCTGGTGAGGAACGGCCCG
GACGTTCACCCGGGGGCCAACTACGTCCAGCAACGAGGGGTCAGCCACAAGAAGTACCTC
AAGTACGGGAACAGGGACAAGATTGCGCAGGAGTTGAAGTGCGGTGACACAGTGGAGCGC
CATCTGGTGGACGGAGACGTGGTGCTGTTCAACCGCCAGCCGTCACTGCACAAGCTGTCC
ATCATGTGTCACAGGGCGAGGGTACAGCCGCAGAGGACGTTCCGCTTCAACGAGTGCGTC
TGCACTCCTTACAACGCCGACTTCGACGGAGACGAGATGAACATGCACCTGCCGCAGACG
GAGGAGGCGCGGGCGGAGGCGCTCATACTCATGGGGAACAAGTCTAACCTGGTGACTCCT
CGGAACGGCGAGCTCCTGATCGCTGCGACCCAGGACTTTATAACGGGTGGGTACCTCATC
ACTCAGCGGGACAGTTTCTTCACGCTGCCGGAAGCCCGCCAGCTGGTCGCGTGTCTGCTG
GCGGGGCCCGACTCCACCATGAGGGTGGACATGCCGCCGCCAGCCATCCTCAAGCCGAGG
ATGCTTTGGACCGGCAAACAGATATTCAGTCTGATAATGAAGCCCAACAAGCGGTGTGAG
GTGAAAGCCAACTTGGAAACGAAGGGCAAGAACTACACCGGCAACCAGGACATGTGCGTT
CAGGATTCATATGTTATAATTCGTAACTCGGAGCTGATCTGCGGTTCCATGGACAAGAGC
ACCCTCGGATCTGGCACCAAGAACTCCGTGTTCTACATCCTGTTGAGGGACTGGGGCGAG
GAGTACGCCGTCAGGGGCATGTGGAGGCTGGCGCGTATGGCCTCCTACTACATGATGAAC
CGCGGGTTCAGCTTCGGCATCATCGACGTGACGCCCGGCAACAAACTCATTGAGGCCAAG
AACAAGCTGCTGGAGTCAGGGTACTCTAAGTGCGACGGATATATCCTGGAGATGGAGAAA
GGAACCCTGCAGTGTCAACCTGGCTGTTCCATGGAGGAGACCCTAGAGGCGATCATGCTC
AGCGAGCTCAGCAGCATTAGAGAACTGGCCGCCAAGGCTTGTTTCCGCGAGCTGCATCCA
ACGAACGCCCCGCTCATCATGGCTCAGAGCGGATCCAAGGGTTCCAACATCAACATATCT
CAGATGATAGCGTGCGTGGGCCAGCAGGCGCTGAACGGGAAACGTGTGCCGAACGGCTTC
GAAGATCGCTCCTTACCACACTTCGAGAGACACTCAAAAATCCCTGCCGCTCGCGGGTTC
GTGGAGAACAGCTTCTATTCAGGGTTGACCCCCACCGAGTTTTTCTTCCACACGATGGGC
GGAAGAGAGGGTCTCGTGGACACAGCCGTCAAGACGGCCGAGACAGGATACTTACAGAGA
AGACTGGTTAAGTCGTTAGAGGACCTGGTGCTCCACTACGACATGACAGTCCGCAACGCT
ACCAGCGAGGTGGTTCAGTTCCGCTACGGCAGCGACGGCCTCGACCCCAGCTACATGGAG
GGCCGCGACAGACCCGTCGACCTGACGCGCGTACTGCGACACGTGCGGGCCAGCTGTCGC
ACGCAAGACGAGGAGCCTCTGGACGGTGAGGGCATCGTGGTGGCGGCGGAGGAGACGCTC
GCTCTGGACGACTTCAAGACCTGTCCGCCGGAGTTCAAGGCGGAACTGCTTGAGTTCCTG
AAGGGCACGGCGGCCAAAGTGCGGTCTCTCCGCGAGCGATACGCGTCAGCCGGTCCCGTG
GCCTTACAGCTGGAGCGACTGACCCTCACGCAGCTGGTGCGGTTCATCAGAGTGTGTCAC
GAGAAGTATCAGAGGAGCATCATCGAACCAGGCACGGCCGTGGGGGCTCTGGCCGCGCAG
AGTATCGGCGAGCCGGGCACCCAGATGACATTGAAGACCTTCCACTTCGCAGGCGTCGCC
TCCATGAACATAACGCAGGGTGTGCCGCGTGTCAAGGAGATCATTAACGCGTCAAAGAAC
ATATCCACCCCCATCATCACGGCCGAGCTCATGGAGCCCACCGACCAGGAGTTCGCCAGG
AGGGTCAAAGGAAGAGTCGAGAAAACTACCCTCGGAGAGATAACGACGTACATAGACGAG
GTGTACCTCCCGCACGAGTGTTTCCTGCTGGTGAGGCTGGATGCTGAGAGAATAAGACTG
CTGTGTCTCGAGGTGGACGTGCACTCCATCGTGTACTCAATCTGCACGTCGAAGCTGAAG
CTGAAGCCGGGGAACGTCCAGGCCGTGTCTGAGTGGGCCATCAAGGTACATGCGGAGGCG
AGCAAGCACGGGGGGTGGCTGAACGTGGCGCTGCAGCAGCTCGCCAGGCAGCTGCCCTCC
GTGGTCGTGAAAGGACTCAGTAAGGTCTCCCGAGCTGTCATAGCGTGTGACGACACGGGA
CCCGTTAATAGGTACAAGTTATGCGTGGAGGGGGACGGTCTCCGGGAGGTGATGGCCACG
TACGGCATCGACGGCCGACGGACCACCTCCAACAACATCCTGGAGGTGTTCCACACGCTG
GGTATAGAGGCAGCGGCCGGCACCATCATGAGCGAGGTGGAGGCGGTCATGGCGGGCCAC
GGCATGGCGGTGGATGGCCGCCACGTGGCGCTGCTGGCGGCGCAGATGTGTGCGCGGGGG
GAGGTGCTGGGGATCACCAGGTACGGACTCGCCCGGATGAAGGAGTCCGTGCTCAATCTG
GCCAGTTTTGAGAAGACAGCCGACCATTTGTTTGACGCGGCGTACTACGGCCAGAGGGAT
CGTATAGAGGGAGTCTCGGAGTGCATCATCCTCGGTGTCCCGGCCGGCATCGGCACTGGA
GTGCTGCAGCTGCTGCACAAACATGACCACACGACGTCGCAGCAACAGCACAAGCTGCTG
TTCGACGATCCCAAATATCATTGCTCAATATGGGAATAA

Protein sequence:

MVIPTNKWTALLVFIQNLLFQPKKPGRGLVQRLKGKQGRFRGNLSGKRVDFSSRTVISPD
PNLQIQEVGVPVHVAKILTYPERVFPANLQWLRQLVRNGPDVHPGANYVQQRGVSHKKYL
KYGNRDKIAQELKCGDTVERHLVDGDVVLFNRQPSLHKLSIMCHRARVQPQRTFRFNECV
CTPYNADFDGDEMNMHLPQTEEARAEALILMGNKSNLVTPRNGELLIAATQDFITGGYLI
TQRDSFFTLPEARQLVACLLAGPDSTMRVDMPPPAILKPRMLWTGKQIFSLIMKPNKRCE
VKANLETKGKNYTGNQDMCVQDSYVIIRNSELICGSMDKSTLGSGTKNSVFYILLRDWGE
EYAVRGMWRLARMASYYMMNRGFSFGIIDVTPGNKLIEAKNKLLESGYSKCDGYILEMEK
GTLQCQPGCSMEETLEAIMLSELSSIRELAAKACFRELHPTNAPLIMAQSGSKGSNINIS
QMIACVGQQALNGKRVPNGFEDRSLPHFERHSKIPAARGFVENSFYSGLTPTEFFFHTMG
GREGLVDTAVKTAETGYLQRRLVKSLEDLVLHYDMTVRNATSEVVQFRYGSDGLDPSYME
GRDRPVDLTRVLRHVRASCRTQDEEPLDGEGIVVAAEETLALDDFKTCPPEFKAELLEFL
KGTAAKVRSLRERYASAGPVALQLERLTLTQLVRFIRVCHEKYQRSIIEPGTAVGALAAQ
SIGEPGTQMTLKTFHFAGVASMNITQGVPRVKEIINASKNISTPIITAELMEPTDQEFAR
RVKGRVEKTTLGEITTYIDEVYLPHECFLLVRLDAERIRLLCLEVDVHSIVYSICTSKLK
LKPGNVQAVSEWAIKVHAEASKHGGWLNVALQQLARQLPSVVVKGLSKVSRAVIACDDTG
PVNRYKLCVEGDGLREVMATYGIDGRRTTSNNILEVFHTLGIEAAAGTIMSEVEAVMAGH
GMAVDGRHVALLAAQMCARGEVLGITRYGLARMKESVLNLASFEKTADHLFDAAYYGQRD
RIEGVSECIILGVPAGIGTGVLQLLHKHDHTTSQQQHKLLFDDPKYHCSIWE