MonarchBase - Protein-coding gene

DPGLEAN21550 in OGS1.0

Genomic Position	scaffold4676:+ 2014-3839
	See gene structure
CDS Length	1755
Paired RNAseq reads	8
Single RNAseq reads	26
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA001303 (2e-53)
Best Drosophila hit	ND
Best Human hit	ND
Best NR hit (blastp)	PREDICTED: similar to orf [Tribolium castaneum] (2e-31)
Best NR hit (blastx)	retroelement polyprotein [Glyptapanteles flavicoxis] (2e-34)
GeneOntology terms	GO:0004519 endonuclease activity GO:0003676 nucleic acid binding GO:0003677 DNA binding GO:0003723 RNA binding GO:0003964 RNA-directed DNA polymerase activity GO:0006278 RNA-dependent DNA replication GO:0008270 zinc ion binding GO:0015074 DNA integration
InterPro families	IPR021109 Peptidase aspartic IPR018061 Peptidase A2A, retrovirus RVP subgroup
Orthology group	MCL21372

Nucleotide sequence:

ATGATATGGCGAACCGCGACGTTCTTTGAAAATATAAAGGGAGCTGGATATCCGTTATCG
AAAACGTTACTACCCGGTTCTACAACCGCATTAAATCAACCCGTGCTTGAGACCGTAACC
ATATCCGAAGAATCCAACAACAATACAAACTGTCGTGAAGTACAAGTGGTAACAGAATCA
GCACGTATACTGGCAGAAGCCATTAGATCTGTAAACCCAGATAGAGCACAAAAATATTTT
GTATCCAATTTTGACCCAACCATTCATGATGTAGATGTGTGGTGCGAAGAGGTTGAACGG
GCTAAATCTTTTAATAATTGGAATGATTCAGAGTGTTTATCGCGTGTACCACTGTGCCTC
AAAGGTGACGCCCGTTCTTGGCTAAACGAATGGGTAACCAGTGACCGAACATGGAGCAAT
TTTGTTATAGAATTTAAACCTCTGTGTCAACGAAAACTTGACTACGCAAATATTTTATAC
AAGGTGTTGCATACCACATCGGATAAATACAGATCCTTTGCCGAATATGCAAGAAGAATA
TTGTTGCGTCTTAAAATTGTTAAAGGGTTAAGTGATGAGTTAAGAGATCTGATTATTATC
TGCGGTATTACGGATCCTCATGTAAGAGCTGCAGCTACTTATGCTTATTTAGAAATTCAT
GACTTAGTTTCGTTCTTATCTATTTATGTGAAACCTACCCGTACTAAACATGAAAATCGA
GGCAGTACTAGGACGATACCTCCGGTTTGTGCATCAAGTATAAAATTTTTTGTTGGCCGA
CAATTTGGACATAAATCTAAATTCTGTCCCAAAAAATTCAGATCTGATCAAAATTCTAAC
ACGTTTGTCTCTGCTAACAATTCTAATAAGATAATTTGTAATTTTTGTAAAAAACCAGGA
CACGGTGAAGCTACTTGTTTTGCCGAGGAAAGATCGGGAGATCGTAACACAAAAAATATT
AATTTATGTAAAGCACAAATAATTGGTGCTCAACATAACAATGATCTTACAACTGCTGTG
ATACAGGGCATCCCTGTAGACGTATTAATTGACAGTGGGGCTCTGAACATTTCATTAGTT
TCTTCCGAAGCCCTGAAGTATTTTATATGTGAACGGAAACCTAAACATTTTATTTTGAAA
GGAATTAGTAACGTTGTCATACATACTGAATTTTTTGTTACCTTAACTGTTGAATTTGAC
AATATTTCTATAGAAGCTGATTTCGTGGTAGTACCAGGGTCTTGTATGACCACGTCTGTA
ATAATAGGAACCGACATTCTGAACCGCGATGGTATCACATACGTGCGAACCAAAGATAAA
CAGTACTTAACTCGAGCCGTGGAAAGAGACCTCCACTTGGTATCCACACATGAACTCATC
CAGATAAATACTCCCCTTAAGGGAAGAGAACTTGAAAATGTCACTAATTTAATAAAACGT
TTTTCGAGTTATTTCATCTCGGATACTGCATCGACTACAGTAACCACTGGCAAGATGTCT
ATTAAACTAACGGACAATACACCAGTTGCTTATAGACCTTACAGACTATCACATTCAGAA
AAGCTTAAAGTTCGAGAAATTATACGCGATTTAAAAGAAAAGGGTATCATTCGCGAATCT
AACTCTGAGTATGCGAGCCCTATAATATTAGTAAAAAAGAAAGACGGAAGCGATAGGATG
TGCGTCGATTATAGAGCTCTAAATCGTAGGACTGTAGAGACAGATACCCTCTACTACTTA
TTGACGACCACATAG

Protein sequence:

MIWRTATFFENIKGAGYPLSKTLLPGSTTALNQPVLETVTISEESNNNTNCREVQVVTES
ARILAEAIRSVNPDRAQKYFVSNFDPTIHDVDVWCEEVERAKSFNNWNDSECLSRVPLCL
KGDARSWLNEWVTSDRTWSNFVIEFKPLCQRKLDYANILYKVLHTTSDKYRSFAEYARRI
LLRLKIVKGLSDELRDLIIICGITDPHVRAAATYAYLEIHDLVSFLSIYVKPTRTKHENR
GSTRTIPPVCASSIKFFVGRQFGHKSKFCPKKFRSDQNSNTFVSANNSNKIICNFCKKPG
HGEATCFAEERSGDRNTKNINLCKAQIIGAQHNNDLTTAVIQGIPVDVLIDSGALNISLV
SSEALKYFICERKPKHFILKGISNVVIHTEFFVTLTVEFDNISIEADFVVVPGSCMTTSV
IIGTDILNRDGITYVRTKDKQYLTRAVERDLHLVSTHELIQINTPLKGRELENVTNLIKR
FSSYFISDTASTTVTTGKMSIKLTDNTPVAYRPYRLSHSEKLKVREIIRDLKEKGIIRES
NSEYASPIILVKKKDGSDRMCVDYRALNRRTVETDTLYYLLTTT