MonarchBase - Protein-coding gene

DPGLEAN20537 in OGS1.0

Genomic Position	scaffold6817:- 726-4233
	See gene structure
CDS Length	3300
Paired RNAseq reads	632
Single RNAseq reads	1670
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	ND
Best Drosophila hit	ND
Best Human hit	ND
Best NR hit (blastp)	polyprotein [Tetraodon nigroviridis] (3e-108)
Best NR hit (blastx)	polyprotein [Tetraodon nigroviridis] (5e-103)
GeneOntology terms	GO:0003964 RNA-directed DNA polymerase activity GO:0006278 RNA-dependent DNA replication GO:0005622 intracellular GO:0008270 zinc ion binding GO:0003723 RNA binding
InterPro families	IPR007087 Zinc finger, C2H2-type IPR000477 Reverse transcriptase
Orthology group	MCL10002

Nucleotide sequence:

ATGGACCCGGCACCCGCACGGACAGTCCGAGAGGGGGGGCGAAAGATCTGTCCACCGGTC
GATGTAAACGGCGAAAACGGCGCGAATACGGATTTGAAATGCCCTACGTGCGGGAAAAAT
TACAAGAGACGAGCCTGGTACATTAAACATCTAAAAACACATAATGGTGTTGAAGCACGA
CAATCGTCGGTAAGTTCTTCAACTTTCACTGCGGATAGAGTTGACCCTCATGTATCCCAT
GGTGAACCATTAACTGGAAACTACCAGGAGTCCATTGACATCCGGACACGTCTTAGCATT
CCAAACATGAAACAATCGACTTGGAAAGTTCACGACGACAATTTAGCGGACCTGTTAGAG
CATCCGGGCTCGAAGCAGGATTTGAACTCGCGAGTAGAAACTTTCCAAAATACTATTTAC
GACTACTTTAACGAGCAATATCCACCTCGAAATCATTACGCTCGCAAAAATAAAGACAAT
TCTTTCAAGATAAAAATGAGGAGGAAAAAACGGGAATTAATAAAAAATCTACGTATAGCC
AAAGCCCTAGGCGACAATCACCTTAGTCATCAACTAGCTAGGGCGTTAAGATCGATTCTA
AAATTAATTCAAGGAATATCGGCGCAAACCGCAGAAAATCGCGATAATTTTGACCGGGCA
AAACAGGAAGTAGATTTTGATAAAAACCCTTTTGAGTATTCGAAAACCATTTTTAAGAAA
GAACGCGGACAGCTTCTCTTGACCAATGAACAAATTTACGATCATTTTAAGAGCACATAC
GAAGTGCCTAAAAGTGTAAGACTCTATGCGGATCCCAACGAACAAAAACCTGGAATTCCT
CGTTTCGATTTCCACGGCATTCCACCAACGCTAGATGAGATAAGTATTCAGATAAAGAAA
AAATCGTCTAAATCTGCGCCGGGACCCGATGGTATCCCATATATAGTCTTTAAAAAATGT
CCATCGGTTCGTAAACATCTCACATATATATACGATAAAATCTGGTCAAGGAAGCAAATC
CCGGAGTGCTTCGGGAAAGCAATTTTTGTCCTCATTCCCAAAAAAGATCGAGTCACAGAT
CCAAAAGATACTAGACCGATAGCCTTAACAAATACTATATCCAAAATCTTTTTCTCAGTT
CTACAAACGAGAATGACGCGATTCATGCTGAGCAACAGGTATTTTAGGCCAAATCACCAG
AAAGGGTTTTTACCCGGAATTTCTGGATGCCTAGAACACAACACTTTGCTGTCGGAGAGT
TTAAAAGATGCTAGGAAAAGCGAGAGGCAAATTACAGTTTGTTGGATAGACTTAGAGAAT
GCGTTCGGGTCGATACAACACGAATTGATGCTATTCGCGCTGAGATGGTACAACTTTCCG
CCCCTAGTTACCGATATGATCGCGTCGTACTACTCAAAATTAAAGTTTTCTATAACAACT
AAAGAAGGCCATTCAAAAACTTTTAGTTACAATGTAGGACTATTTCAAGGTTGCTGTTTG
TCTCCAATTGTATTTAATATTGTAATTAACATCTTAGTAGATAAATTAACCAGCAACGAG
AAAAAATGGGGGTATCGGTTCAAGTTTAATAATAAATACACGGAATCCATTTTAGCCTTC
GCTGACGATCTCGCAATACTGACACGTAACCCCAAACACTGTCAAGTACTATTAGATGAA
GTGGATAGATTCTGTGAGTGGACCGATGGATTGAGGACAAAACCAAGTAAATGTCACTGT
CTGTGTCTCGGTAGGCGGAGTACAAGATACACCTCATACGATCCGGGATTATCGTTAGGC
GGTCAATGCATTTCTACGGTTACAGAAAATGCACCATTTAAATTTCTCGGTCGGAAGATT
GATAATATAGGTCGTACTCCATCTTTAGAAGGTATAGTAGATAGCTTTTTAAACGATCTC
AACAAGGTAGATAGCCAACAGATCAGTAACGTTAAAAAAGCTTGGATCTACGATAATTAC
CTAACTTCACGTTTAAATTGGCCTTTCCTCGTTTATGATTTTAATAAAACCCTTTTGTCA
AAGTTAGATGCAGGCGTCATAAAGATGTTGAAGTTGTGGCTCGGGCTCGCGCTAACGGCT
GATTCATCGGCTTTATTTAGGGATCGCAATAGTTTTGGGATGAGTCTAAAAAGGCCATCG
GAGCTCTACAAACACCTGAGAGTTTCCAAGAGATACATCCTGGGGAAATCCCAGGATGAC
GTCGTTACATCGCTCCCAAAAGACAAAGATGCCCCAGAGCTAGAGTCAAGGCTTCAATTC
CACAAGCAGTTTATGATAGGAGCGCAAAGTAACAGAGTAGGGTTAGGATCAAGTAGGAAG
GTCCAAGATACGGATATATTGAAGTCTTTTATTCGACAAGACGAGAATGATAAATATAAG
ATCCATGCAATAAGTTTAGAAATGCAGAACGAGTGGTTAGACATAGGAGATTTTTGCATC
CCATTAGCACTAAAATGGCGCACCTTAATCCATGATTGGTCGCCAGCATTGCTAAAATTC
TATCTCAATGCATTCCAGATGACTCTCCCAGATCAGAGTAATTTAGTAAGATGGGGTAAA
GGTACCGAAAAGACTTGCTATATCTGTGGGAAGGCAGTTGGAACTGCTAGGCACTTGTTA
GTGGGATGTAAGGTACTCCTCGATAGCGGTCAATACTCGCGTCGTCACGATAGGGTTCTA
GAAATCATACGTGAAGCGGTTAGTCTTTCGGTAGCCAGAGCGCAAAAAGGAATAACCACA
AACGAGCGATCAGTAGGTTTTGTGAGAGAGGGCACTAGGGCTATAAAAACAAATGTTAAG
CCTTACTCCATCCTTAAAGCGGCTACGGATTGGACTATAATGATGGATACGTGTGAAAAA
CAATACAAAATCCCCGAGGATATTTGTGCGTCGGCCTCCAGACCGGACATATTCATGTAT
TCGCGAATCTTAAAGCGCGTTGTGATGATAGAGCTTACGGTTCCTTGGGAAACCAACATC
CCCAAAGACCATACCATCAAGGTCAACAAATATTACGAGCTCACAAACGAACTCACTCGA
AATAGGTTCGTCGTGGATTTATACGCGGTAGAAGTGGGAGCGAGAGGTATAACGGCTAAA
TCTCTCTACAACCTACTAAAAGACTTAGGCCTGTCCAGAACTCACATCAATTCGTTCTTG
GAACGTACTTCGAAGGCAGCCCTAGTAGGTTCTTTTCAAATATGGTTAGGTAGGGAGAGG
AGCTTGGACAGTGGAGGTTCCACTCCCTGCAACGCAATGGACCCGGCACCCGCACGGTGA

Protein sequence:

MDPAPARTVREGGRKICPPVDVNGENGANTDLKCPTCGKNYKRRAWYIKHLKTHNGVEAR
QSSVSSSTFTADRVDPHVSHGEPLTGNYQESIDIRTRLSIPNMKQSTWKVHDDNLADLLE
HPGSKQDLNSRVETFQNTIYDYFNEQYPPRNHYARKNKDNSFKIKMRRKKRELIKNLRIA
KALGDNHLSHQLARALRSILKLIQGISAQTAENRDNFDRAKQEVDFDKNPFEYSKTIFKK
ERGQLLLTNEQIYDHFKSTYEVPKSVRLYADPNEQKPGIPRFDFHGIPPTLDEISIQIKK
KSSKSAPGPDGIPYIVFKKCPSVRKHLTYIYDKIWSRKQIPECFGKAIFVLIPKKDRVTD
PKDTRPIALTNTISKIFFSVLQTRMTRFMLSNRYFRPNHQKGFLPGISGCLEHNTLLSES
LKDARKSERQITVCWIDLENAFGSIQHELMLFALRWYNFPPLVTDMIASYYSKLKFSITT
KEGHSKTFSYNVGLFQGCCLSPIVFNIVINILVDKLTSNEKKWGYRFKFNNKYTESILAF
ADDLAILTRNPKHCQVLLDEVDRFCEWTDGLRTKPSKCHCLCLGRRSTRYTSYDPGLSLG
GQCISTVTENAPFKFLGRKIDNIGRTPSLEGIVDSFLNDLNKVDSQQISNVKKAWIYDNY
LTSRLNWPFLVYDFNKTLLSKLDAGVIKMLKLWLGLALTADSSALFRDRNSFGMSLKRPS
ELYKHLRVSKRYILGKSQDDVVTSLPKDKDAPELESRLQFHKQFMIGAQSNRVGLGSSRK
VQDTDILKSFIRQDENDKYKIHAISLEMQNEWLDIGDFCIPLALKWRTLIHDWSPALLKF
YLNAFQMTLPDQSNLVRWGKGTEKTCYICGKAVGTARHLLVGCKVLLDSGQYSRRHDRVL
EIIREAVSLSVARAQKGITTNERSVGFVREGTRAIKTNVKPYSILKAATDWTIMMDTCEK
QYKIPEDICASASRPDIFMYSRILKRVVMIELTVPWETNIPKDHTIKVNKYYELTNELTR
NRFVVDLYAVEVGARGITAKSLYNLLKDLGLSRTHINSFLERTSKAALVGSFQIWLGRER
SLDSGGSTPCNAMDPAPAR