MonarchBase - Protein-coding gene

DPGLEAN11080 in OGS1.0

Genomic Position	scaffold736:+ 147183-151892
	See gene structure
CDS Length	3762
Paired RNAseq reads	2296
Single RNAseq reads	6272
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA011612 (8e-91)
Best Drosophila hit	ND
Best Human hit	ND
Best NR hit (blastp)	endonuclease-reverse transcriptase HmRTE-e01 [Heliconius melpomene] (0.0)
Best NR hit (blastx)	endonuclease-reverse transcriptase HmRTE-e01 [Heliconius melpomene] (0.0)
GeneOntology terms	GO:0003964 RNA-directed DNA polymerase activity GO:0006278 RNA-dependent DNA replication GO:0005622 intracellular GO:0008270 zinc ion binding GO:0003723 RNA binding
InterPro families	IPR005135 Endonuclease/exonuclease/phosphatase IPR000477 Reverse transcriptase
Orthology group	MCL10012

Nucleotide sequence:

ATGTTGCGCCCGGAGTCACCCCTCGCTGATCACCGCAGCCTTCTGCCCCGCCGTCTTCTA
CCGGCCAAGGCACAAATCGCACCAGTTGATAAGAAGAAGAACAGACGATCTCTGGAACTA
AACCCTCCGTCCAACGACCACGCCCCATACGACTATCCCAAACTCCTCATATCGAAGACC
ACTGATTCACTTAACACGGAATGCCCTCGGAAACTGATCAACAAACAAGACTCCTCTGAT
AGTCTCAAGCGAGCGTTGTTATCCAAAGAAGATAAGAAATGTGCATTGAAAGAAGTAGAC
AAGAAGGTCTTAACTAAACAGGACTCAAACGAGAGCCTCAAGAAGAACCCGCTCAGCCGA
CAAGATTCGAATGATAGCGCGAAAAGAAGAGACTCGGATCCGAAATGGCTGAGATCAGAT
GAAAAGAAATCTGTGGAGATTAAGAGAGGCGGTGATAAGAAGGGTCTACTGGAGACCGAT
ATAGATGATGCGTGTAAACGTATCTACGAGAGGAGAACGGGCTGCGCTCGGCCTACTCTG
CCTCCTGTGGCGGAGAAGGGCGTGTCCCCCAAATCACCGAACGGAAGCCCCATAACGCCG
GGGGTGGTCGCGGTCGCTGAGGGGGTAGTGCGATGGGGCAGTGGACTACTGTCTCCCAAA
GACGAGCCAAGACTGAGACCAGCCAGGAGCTGGTATGGATATGGAACACTGCCCACTGAC
GGTGACAAGTCCCGTTTTACCCGTAAAACGGGGTTTTGGAGGTCAGACGGCAGTCGCTCC
GTTAAAACCACTCCCGCCACTCTTATGGTTGCAAAAGTTTATGGACTGGGTACGGCTAGG
GCGTCGCCGATAAACGACGCGCAGGCACATCGCCCTACACCTGCGATAAGTGGGCAAGGG
CTACCGTGTCAAGTACGGGCACGGCTAAAGACGTTAGTACCCCAAAGGAAACTCCGCTTT
GCAACGTGGAATATTGGCTCTCTAACCGGACGATGCAGAGAACTCGCAGATGTACTCATG
AGACGTCGGGTCCAGTGTGCGTTCCTCCAGGAAACTCGCTGGAAGGGCAATAAGTCTCGG
AACATCGGACAGGGTTACCGGCTGATATACACTGGGTCGCCTTCAGGTAAAGCTGGTGTA
GCGGTAGTGCTATCTGAAGAGCTTCGGAATGGTCTTCTTGAAGTTGATCGTCGCTGCGAC
CGCCTGATGCGGGTGCGGGTACTGATCGAGGGAGTGATTACTAACTTGATCAGTGCTTAT
ACTCCTCAGGCTGGATGTAGCGGGTCCGAAAAAGAGTCATTCTGGGAGCAATTTGAAGAG
GTTCTACGTGCTATACCAGCTGCTGAAGTAATCATAGTTGGGGGGGACTTAAATGGCCAC
GTAGGTAGGGCTGCGGAAACGTTTGACCGTGTACACGGTGGTTTTGGTTATGGTCGCCGC
AATGCAGAGGGAGAAAATATTCTCAGAACCTGTATTGCGTCTGACTTAGCCGTCGTGAAC
ACGTTCTTCCAAAAGACTCCACAGCACCTTATCACGTATAAGAGCGGGTCCCACTCAACC
CAAATAGATTATCTGCTGACCAGACGGTGTCATATCAGCAAGGTGACTAACTGTAAAGTC
ATTCCTGGTGAAAGCCTGACGGCCCAACATCGACTTCTTGTCATGGACTATGTCGTTACC
CCGAAAAAGAAAGTGGCCGAGAAACGTAAGCCTCGCATCAGGTGGTGGTTGCTGAATGGA
ACGATGCAGACCAGCTTTCGGGCAGAGGTTGAGAGTCAAAATCTGTCGACTAATACCGAA
ACTGCTCAGGAAGTTTGGGATCGAGCCCAGTCAGCAATTATCACAGCAGGTAAACGAGTT
CTAGGCCTTTCTAAGGGAGGACGGGTCATTGACAAGGAGACATGGTGGTGGAATGACGAA
GTGCAGGAGGTGATTCGTGAAAAGAAGACTGCCTTTAAGAAGTGGCAGCAATCAAACTCT
CCTGAAGACAGACTAGAGTACATAGCAGCGAAACGTGCCAGTAAAAGGGCTGTTGCCAGA
GCCCGCAGTGATAGGTTATCACCATTATATGATACACTTGAAACTGCGGAGGGGCAGAAG
CTCATTTACAAATTGGCACGAGCTCGGGATAAGGCGACGCAAGATATCGCAAAATGTCTT
AGCGTCAAAGATTCCCAAGGCACGTTGCTGTGTAATCATGCCTCTGTGAAGGAGAGATGG
AGATGCTACTTCAAGGAGTTGCTAAATACTCAGCACCCGTGCAGTCTTCCAACCGAAATA
CCTCCTAATCTTGGACTTATTGCCCCGATAACACCTGACGAAACTCGGAATTGTCTTCGA
CGCATGAAGAATCGGAAAGCGGTGGGACCTGACGATATTCCGATCGAAGCGTGGAAATCA
TTGGGCTCTCTTGGTGTGCTCATACTGACGGACCTTTTTAACCGCGTCTTGAACACTGGG
ACTATGCCACATCAGTGGCGTTATAGTTACATTACCCCTATATACAAAGGCAGGGGCAGT
GTTCAAGATTGTGGTAGTTATAGGGGCGTTAAGATCATGAGTCACACCATGAAGCTCTTT
GAGCGTATGATCGACCTCAGGCTCCGCCGAGAGTGTACTGTCTCGGAATGTCAATATGGA
TTTCAGCCAGGATCGGGCACCTTGGACGCCATCTTTGCCATCAGAACTCTGATGGAGGCA
TACAGGGAAAAAAGGAGAGCTCTGCATGTCGCATTCCTAGATCTGCAGAAGGCCTTTGAC
TGCGTGCCTCGTCAATGTATCTGGTGGGCATTGCGATTCAAAGGGATCCCTGAGGCCTAT
ATTGACATCATCAGAGACATGTACCGCGATTCCGTTTCAATGGTTAGGACTGCTGTTGGC
GATACAAAACCCTTTCCGATCTCAGTAGGGCTTCACCAAGGCTCGGCTCTTAGCCCCTTC
TTGTTCAATGTAGTGCTGGACACTGTCTCGGCTAACATCCAGGACCAGCCTCCATGGCTG
ATGATGTATGCCGATGACATAGCGCTCATTGATGAGAGCAGGTTGACGCTAGAGCGAAGA
GTGAACCTCTGGAAGGGTACGCTTGAGAACGGTGGTCTTAAACTAAATGTGACGAAGACC
GAGTACATGGCTTGCGGAAGCCCGGACTCTTGCACTATCCATATAGGTCCTGAACCAGCC
GTTAAGTCGGAAAAGTTCAGGTACCTTGGATCTATTCTGCATGAGTCCGGAGGCATCGAT
CACGATGTCCAAGCCCGGATCAGCGCTGCTTGGGCGAAATGGCGTGACGTCACAGGTGTG
GTCTGCGATCGCAGAATACCTACCAAGCTCAAGGGAATAATATACAAGAGCATAATCCGA
CCGGTTCTCTTATATGGAAGCGAATGTTGGCCAACACTGTCCAGGCACACTCAGGAGCTT
CACGTCACGGAGATGAAGATGCTGAGGTGGATGTGTGGCGTAACGCGGGCTGACCGTATA
CGTAACACATTTATCCGAGGTAGTCTTGGAGTCCGTGACGTAGCGGATAAGCTTCAAGAG
AGTCGCCTGAGATGGTATGGCCACGTTGCACGCCGGCCTGAGAATTACGTCGGAAAAATT
TGCCTTGATATGTCGGTCCCTGGAGCAAGACCCCCAGGACGCCCAAGAAAGCGATGGCTG
GACACCGTGAAGCAGGATATGAGAGCCAATGGACTTACCACCGCGGATGCTAAAGACCGT
GCAAAGTGGAGGAGTTATCAAAGTAACATAACTAACCTATAG

Protein sequence:

MLRPESPLADHRSLLPRRLLPAKAQIAPVDKKKNRRSLELNPPSNDHAPYDYPKLLISKT
TDSLNTECPRKLINKQDSSDSLKRALLSKEDKKCALKEVDKKVLTKQDSNESLKKNPLSR
QDSNDSAKRRDSDPKWLRSDEKKSVEIKRGGDKKGLLETDIDDACKRIYERRTGCARPTL
PPVAEKGVSPKSPNGSPITPGVVAVAEGVVRWGSGLLSPKDEPRLRPARSWYGYGTLPTD
GDKSRFTRKTGFWRSDGSRSVKTTPATLMVAKVYGLGTARASPINDAQAHRPTPAISGQG
LPCQVRARLKTLVPQRKLRFATWNIGSLTGRCRELADVLMRRRVQCAFLQETRWKGNKSR
NIGQGYRLIYTGSPSGKAGVAVVLSEELRNGLLEVDRRCDRLMRVRVLIEGVITNLISAY
TPQAGCSGSEKESFWEQFEEVLRAIPAAEVIIVGGDLNGHVGRAAETFDRVHGGFGYGRR
NAEGENILRTCIASDLAVVNTFFQKTPQHLITYKSGSHSTQIDYLLTRRCHISKVTNCKV
IPGESLTAQHRLLVMDYVVTPKKKVAEKRKPRIRWWLLNGTMQTSFRAEVESQNLSTNTE
TAQEVWDRAQSAIITAGKRVLGLSKGGRVIDKETWWWNDEVQEVIREKKTAFKKWQQSNS
PEDRLEYIAAKRASKRAVARARSDRLSPLYDTLETAEGQKLIYKLARARDKATQDIAKCL
SVKDSQGTLLCNHASVKERWRCYFKELLNTQHPCSLPTEIPPNLGLIAPITPDETRNCLR
RMKNRKAVGPDDIPIEAWKSLGSLGVLILTDLFNRVLNTGTMPHQWRYSYITPIYKGRGS
VQDCGSYRGVKIMSHTMKLFERMIDLRLRRECTVSECQYGFQPGSGTLDAIFAIRTLMEA
YREKRRALHVAFLDLQKAFDCVPRQCIWWALRFKGIPEAYIDIIRDMYRDSVSMVRTAVG
DTKPFPISVGLHQGSALSPFLFNVVLDTVSANIQDQPPWLMMYADDIALIDESRLTLERR
VNLWKGTLENGGLKLNVTKTEYMACGSPDSCTIHIGPEPAVKSEKFRYLGSILHESGGID
HDVQARISAAWAKWRDVTGVVCDRRIPTKLKGIIYKSIIRPVLLYGSECWPTLSRHTQEL
HVTEMKMLRWMCGVTRADRIRNTFIRGSLGVRDVADKLQESRLRWYGHVARRPENYVGKI
CLDMSVPGARPPGRPRKRWLDTVKQDMRANGLTTADAKDRAKWRSYQSNITNL