MonarchBase - Protein-coding gene

DPGLEAN16001 in OGS1.0

Genomic Position	scaffold5477:+ 248-3674
	See gene structure
CDS Length	1986
Paired RNAseq reads	4
Single RNAseq reads	4
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA001518 (3e-15)
Best Drosophila hit	ND
Best Human hit	ND
Best NR hit (blastp)	PREDICTED: hypothetical protein [Saccoglossus kowalevskii] (8e-45)
Best NR hit (blastx)	hypothetical protein BRAFLDRAFT_74839 [Branchiostoma floridae] (6e-42)
GeneOntology terms	GO:0003964 RNA-directed DNA polymerase activity GO:0006278 RNA-dependent DNA replication GO:0005622 intracellular GO:0008270 zinc ion binding GO:0003723 RNA binding
InterPro families	IPR000477 Reverse transcriptase
Orthology group	MCL20843

Nucleotide sequence:

ATGAAAGTAATGGATGAAGAAACTTTGATAAAGATCTGTAAAACAGCTTTTTCACCAGAA
GAAATTTTGGCGGCAAAAAAGTTGTTATTTGACGCTGTACCTACAAAACGCATGAAGGTG
AGAAAAAAAGAGGAAAAATCTAAAAGAGACTTGGAAGATATTCTTGACCTTTTAAAAAGT
ACGGACGCGACGGATCCGGAGAGAATCCCGATTTTTGTTGCTAAAGAATTACACAGATTG
CCACCAATTACTTTCGACCACGTAGACGTTACGCGGTTATTGAGAGATTTAAACTTGCTG
CGGGAACACTTAAATGAAATAAGAAATGATTGTTTTCTCAAAAACAACTCCGTGAAATTC
TTGAAACATCGCGGGAACATCCAAGTTTTACGGCAGACAGCGGACCGATGGATGACTGAG
ACGGCGGTACAATGTCAAGGACGCGGAAATATAAATCTAATGGACACCTGTGAAGTTAGT
ATGACGAATTCAACCAAACGTCAAGTTAATGGATGCGCCGTCTCTGTTGCGCAGCCGAGT
GGCAGCGACAAGCATACAACGCTGCAACAACGCACGAGCGAAGCCGATGACAATTATACG
ACGACAACGATTACCGATGATGTCGCGTGCGCCGCGCGCGGAGCGTCGTCAATGACTAAT
GTGAAAGAAAGGGAGCGCACGATGGCCGACATTGAGTTGGAAAATGTGTACAAAAATATT
GTCACTATCCTTTCTGAATCCGCAACTGTAACATATAAAGAAAATAAAACGAGGAGCAAA
AAGGGCTACGTGACTGGGTGGAATAAGTACGTTCGAGAGGCCCATTGTGAGGCTCGATCG
AAGTATCAACTATGGTTGCTGTATAATAAACCTAGATCTGGAAAAGTTTGGGACGAGCTA
TGTGAGAGTCAAAAAATTTTTAAAAGTAGATTAAGATGGTGTCAAAATCATAAAGACGAA
ATTAAAATGGATTTAATTGCTTCGCACAGATCAGCTAAAGATTTTTCAAAATTTTGGAAA
GCAACCAATAGCTTGAATGTTCGACCGAGCCTACCAGTGTGTGTCGACGGCCAGAATAGT
CAAAAGGATATCGCTAATTTGTTTAAAAATCATTTTAAAGTATCTTCTCCCCTGGGGCCA
TCTGTGAGGGGAGTCGATGCTGAGGTTTGTCGTGATAAAGAACTTCTGTGTTTCTCAGCT
AAACAGGTTTCTGAGGTGATAAATAAAATGACCAGGGGAAAATCGCCTGGACACGACGGC
CTCAGCATTGAACATTTGAAATATGGGGGAATACACTTACCCAGAGTACTGGCAATGTTT
TATTCCCTATGTGTTAGTCACTCATACATCCCAATAGAAATTATGAAAACAATAGTGGTT
CCTATTGTTAAAAATAAAACGGGTAACATTGCAGATCGATCCAATTATAGGCCCATCTCA
CTTGCTACCATAATTGCTAAAGTAATGGATAGTCTGCTTGATAAGATACTTAACAGTAAG
CTTACCTTTCACGACGCACAGTTTGGGTTTAAACCTGGACTTTCTACAGAAAGCGCAATA
TACAGTTTGAAGCAGACTGTCCAGTACTATACTAGCCGTAAAACGCCGGTTTATGCCTGT
TTCCTTGATCTCTCCAAGGCCTTCGATCTAGTGTCTTATGACCTGCTTTGGGAGAAGATG
GAGAGAGCGGGCGTAGAGCCGGAGGTGCTCCGGGTTATGCAGTTTTGGTATGCACATCAA
ACCAATAATGTCAAATGGGGTAAGGAACTCTCAGACTCGTATAGGATGCAGTGCGGGGTA
AGGCAGGGGGGACTGACCTCCCCAAAGCTCTTCAATCTATACGTGAATGATTTGGTAGTG
GAACTTAGTAAGACACCAGTCGGCTGTTGGATAGACGGCATATGCGTAAATAACCTTAGT
TATGCCGATGACATGGTTTTGCTGGGTCTCTGTTTACAAAGAGAGACCAAGTGCACCTGC
ATTTAA

Protein sequence:

MKVMDEETLIKICKTAFSPEEILAAKKLLFDAVPTKRMKVRKKEEKSKRDLEDILDLLKS
TDATDPERIPIFVAKELHRLPPITFDHVDVTRLLRDLNLLREHLNEIRNDCFLKNNSVKF
LKHRGNIQVLRQTADRWMTETAVQCQGRGNINLMDTCEVSMTNSTKRQVNGCAVSVAQPS
GSDKHTTLQQRTSEADDNYTTTTITDDVACAARGASSMTNVKERERTMADIELENVYKNI
VTILSESATVTYKENKTRSKKGYVTGWNKYVREAHCEARSKYQLWLLYNKPRSGKVWDEL
CESQKIFKSRLRWCQNHKDEIKMDLIASHRSAKDFSKFWKATNSLNVRPSLPVCVDGQNS
QKDIANLFKNHFKVSSPLGPSVRGVDAEVCRDKELLCFSAKQVSEVINKMTRGKSPGHDG
LSIEHLKYGGIHLPRVLAMFYSLCVSHSYIPIEIMKTIVVPIVKNKTGNIADRSNYRPIS
LATIIAKVMDSLLDKILNSKLTFHDAQFGFKPGLSTESAIYSLKQTVQYYTSRKTPVYAC
FLDLSKAFDLVSYDLLWEKMERAGVEPEVLRVMQFWYAHQTNNVKWGKELSDSYRMQCGV
RQGGLTSPKLFNLYVNDLVVELSKTPVGCWIDGICVNNLSYADDMVLLGLCLQRETKCTC
I