MonarchBase - Protein-coding gene

DPOGS208948
Transcript	DPOGS208948-TA	3840 bp
Protein	DPOGS208948-PA	1279 aa
Genomic position	DPSCF300009 + 333593-340601
RNAseq coverage	56x (Rank: top 69%)

Annotation
*Heliconius*	HMEL002638	80.91%
*Bombyx*	BGIBMGA002418-TA	76.44%
*Drosophila*	mus308-PA	51.31%
EBI UniRef50	UniRef50_D6X4C0	57.71%	Putative uncharacterized protein n=1 Tax=Tribolium castaneum RepID=D6X4C0_TRICA
NCBI RefSeq	XP_969311.1	57.71%	PREDICTED: similar to DNA polymerase theta [Tribolium castaneum]
NCBI nr blastp	gi\|91091764	57.71%	PREDICTED: similar to DNA polymerase theta [Tribolium castaneum]
NCBI nr blastx	gi\|91091764	57.71%	PREDICTED: similar to DNA polymerase theta [Tribolium castaneum]

Group
Gene Ontology	GO:0003887	3.8e-79	DNA-directed DNA polymerase activity
	GO:0003677	3.8e-79	DNA binding
	GO:0006260	3.8e-79	DNA replication
	GO:0005524	6.1e-20	ATP binding
	GO:0004386	6.1e-20	helicase activity
	GO:0003676	6.1e-20	nucleic acid binding
	GO:0008026	6.1e-17	ATP-dependent helicase activity
KEGG pathway
InterPro domain	[1039-1240] IPR001098	3.8e-79	DNA-directed DNA polymerase, family A, palm domain
	[993-1015] IPR002298	1.3e-22	DNA polymerase A
	[282-382] IPR001650	6.1e-20	Helicase, C-terminal
	[18-172] IPR011545	6.1e-17	DNA/RNA helicase, DEAD/DEAH box type, N-terminal
	[4-210] IPR014001	3.5e-11	DEAD-like helicase
Orthology group	MCL14405		Single-copy universal gene

Nucleotide sequence:

>DPOGS208948-TA
ATGTTCGATTGGCAAGTTGAATGTCTCAGCAATCCAAAAGTGCTTATAGATTGTCAAAATCTGTTATATTCGGCACCAACATCTGCTGGTAAGACACTTGTTGCTGAATTATTGACCATTAAGACTGTTCTGGAAAGACAGAAAAAAGTCATAATCATATTACCCTTTGTATCAATTGTGAGAGAGAAAATGTTTTATTTGCAAGACATATTATCTAGTTCAGGTATCAGGGTAGAAGGATTCATGGGCTCCCAGACTCCACCTGGTGGTTTACAGGCAGTACACATTGCGATATGTACAATTGAAAAAGCGAATAGTTTAATCAATAAACTTTTAGATGAAGGAAATATATCAGAATTGGGTGCTGTAGTTGTTGATGAATTACATTTACTTGGAGATCCACATAGAGGATATATTCTGGAGCTTCTTTTAACTAAAATTAAATATACAGCATCTAAATTAAATGATCTCTCAATACAAATAATAGGAATGTCTGCAACTTTACCAAATTTAAAAATGTTGGCGGATTGGTTGGAAGCTCATTTATTTATAACAGAATTTCGGCCCATACCTCTAATTGAATCATGTTTGGTCGGAGACAAGTATTATAATAAAAAAGGTGAACACATAGGCATGCTGTGTAAGTCAAATTTAAAAGAAATTGATGATGATAGTGTCCTTTTGATTTGTCTGGAAACAATAAAAAGCAGTTGTTCTGTTCTTATATTTTGTATGACTAAGAATAGATGTGAAAACTTAGCACAGAGCATTGCATCATCATTTTTTAAATTGGGTTGTATGAATAATGAACAAGGTATGATTTTAAGAGAACAATTAAAGACTTCAAGTATTCTCGAAGTTTTAGAACAATTGAAAGGTTGTCCTGTTGGTTTGGATCCAGTATTAAAAAATATTATCTCATTTGGAGTTGCATATCATCATGCTGGACTTACATTCGATGAGAGGGACATAATAGAAGGGGCATTCAAATCTGGTGCTGTGAGAGTACTCGTTGCTACATCCACCTTGAGTTCCGGTGTTAATTTACCTGCTAGAAAAGTAATCATCAGGTGCCCCATGTTCCAGAAGCAACCAATTAATATTTTGACCTATAAACAAATGGTTGGCAGAGCTGGGCGTATGGGAAAAGATACAAAGGGAGAAAGTATTCTAATATGCACTCCAAATGAACAAAAAATTGGATTTGATCTGATGATGGGGGATCTGGATCCTGTAAAAAGTTGCATAGAGACTGAAGATAAATTTATGAGAGCTGTATTAGAAATGATTGCTAGTCAAGATGTTTGTACGGAAGAACAGTTAGATTTGTACTCTAAAAGTACACTATTATTTAGCCAACAAAGTCTCCATCCATCCCAAAACTTTTTATTAAATGACACTCTAAAGGAACTCGTCAATTATGAACTTGTGAGAATACAAAAAGATGGAGAAGAAATAAGATATGTAGCCACTTCATTAGGGAAAGCCTGTTTGTCATCTTCCATGTCGCCAAACGATGGAATATCTTTGTTTTGTGAGTTACAAAAAGCTCGACAATGTTTAGTCTTAGAAACAGACTTACATCTTATTTATTTAGTGACGCCATATAGCGTTAGTAATCAATGGAATAATATAGATTGGTTACATCTGCTCACTCTTTGGGAAAGTCTCACATCCGCCATGAAAAGAGTTGGCGAGCTTGTTGGTGTCCAAGAGAGTTTTATAATTCGTTGCTTAAGGGGAACAAACAAAAATAATAATAACCAAAATAAACTTAATATACATAAGAGATTTTATACAGCACTAGCATTACAGGATTTAGTGAATGAAGTGCCACTCTCTGAAGTTGCTGGTAAATTTCAGTGTGCTAGAGGTTTCTTACAAGGTTTACAGCAAGCTTCCGCTACATTTGCCGGAATGGTAACATCATTTTGTCATCAACTTGGGTGGAAAAACATGGAAATGATTATATCGCAATTTCAAGATCGTTTGCATTTTGGTATACATTCAGAGTTATTAGAACTCATGAAACTATCCTCCCTAAACGGCGTTCGAGCGAGAACTTTATTTAATGCGGGTTTTGAAACTGTTGCAAGCATTGCATCAGCTGAAGTTAATGTTATAGAAAATGCACTTCATAAATCCGTACCATTCCAAAGTGAAAAACAAAGAGACGAAGATGATATGAGCGATTTAAGAAAAAGGAATAAAATCAAGAATATATGGATAACAGGCTACTGTGGCGAACACGAGCAGATATTTAAAACAAAGATGTCGGAGATTCTATCAAACGATTCCCTTCAGTTGGATATGCTGTCGATAAAGACGTATTACGCTGAAATCAAGAAATATTTTGGAGTTAATTTGTCTTATTGTAACGACGTGTCTTTAGCTGAGTGGCTTCTAGATAGTGAGGAGAAAATATCGACAATCGCTGATCTGGCGTTCAAGTACTGTGATCTAGATTTACAAAAGATGGAAATAAAAATTGACAATCAGATAAAAAGTTACAAATCCTTGAACATGCATGAGATGAATTGTTTAAGGGCATGGTGTTTATGCGATATAGTAAAACAACAGGAGAAAAAAATATCGCAAGAAACATTGGTCATGGAGAAGATCTTAAATACAGAGATCCAAGTTTGCAAGATCCTTGGGGATTGCGAGTATCACGGCATTACGGTGGATAAAGATCTCGTGTCGAGATTTTTGATTGATGTGAAAAATTCTCAAGAGATCTTACAGAAGAAGGCATTTAAGATATGCGGATACCATTTTAATTTCAACTCATCCAAGGATGTAGCTAAAGTTTTAGGACTTTACAAGGGTCGTAAGACCAGCACTAGGAAGAGTGTTCTTTCGGCGCACAACAGTCCTATGTCTAGTATTATAATATACTGGCGGAAACTCAACTCCATACTCACTAAGAGTCTTTATCCCATCACTGAACAAGCCTGTGTATACACTGAAGATAATAGGATATCTCCATCTTATACCATGTACACATGCACGGGACGCATTAGCATGCACGAGCCGAATTTGCAAAACTTACCGCGGAAATTCACGATACCGGCAAACTATTTATGTGATAATGAATCTTGTGACGACGTAATAGAGTTCAATTGTAGGAAAATATTCAGAGCAGCGCCCGGTTACGTTTTCATATCGGCTGATTACTGCCAGTTGGAAATGAGGATTCTGACACACTTTTCCAAGGACGTTACTCTAACTAGGATAATGGGTTCGGATGTTGACGTTTTTAAATCGATTGCAGCGTCTTGGAGTGGTGTGCCCGAGCACGAGGTAGACGAAGATTTACGTCATAAAGCCAAGCAGCTTTGTTACGGTATATTATACGGAATGGGTAATAGGACTCTGTCTCAACATTTAAACGTTACAGAATTAGAGGCTGCATATTTTATGGATATGTTTTATAAGACCTATCCATCGATAAAGGTTTTTACAGCGAGTCTGATAGAGGAGTGTAGGAAGAAAGGTTACGTGGAAACTTTGATGAAGAGGAGAAGATATCTTCCTAACATCAACAGCAGTGTTCCTTCAAAGAGGAGTGCAGCTGAAAGGCAAGCTGTTAACACGACCATCCAAGGATCGGCCGCAGACATAGCGAAGTCAGCGATGTGTTCCATACAACAAAGCACTTCATCACGTCTGATATTACAAATGCACGATGAACTTATATACGAAGTACCGGTTAATAATAAACAAGATTTTATAGTTATTTTAAAAAAATCTATGGAAAATACCGTCCGTCTGAACGTACCTTTACCGGTCAAAATAAAGTGTGGGCAGACCTGGGGTACAATGGAGGACGTCAAATAA

Protein sequence:

>DPOGS208948-PA
MFDWQVECLSNPKVLIDCQNLLYSAPTSAGKTLVAELLTIKTVLERQKKVIIILPFVSIVREKMFYLQDILSSSGIRVEGFMGSQTPPGGLQAVHIAICTIEKANSLINKLLDEGNISELGAVVVDELHLLGDPHRGYILELLLTKIKYTASKLNDLSIQIIGMSATLPNLKMLADWLEAHLFITEFRPIPLIESCLVGDKYYNKKGEHIGMLCKSNLKEIDDDSVLLICLETIKSSCSVLIFCMTKNRCENLAQSIASSFFKLGCMNNEQGMILREQLKTSSILEVLEQLKGCPVGLDPVLKNIISFGVAYHHAGLTFDERDIIEGAFKSGAVRVLVATSTLSSGVNLPARKVIIRCPMFQKQPINILTYKQMVGRAGRMGKDTKGESILICTPNEQKIGFDLMMGDLDPVKSCIETEDKFMRAVLEMIASQDVCTEEQLDLYSKSTLLFSQQSLHPSQNFLLNDTLKELVNYELVRIQKDGEEIRYVATSLGKACLSSSMSPNDGISLFCELQKARQCLVLETDLHLIYLVTPYSVSNQWNNIDWLHLLTLWESLTSAMKRVGELVGVQESFIIRCLRGTNKNNNNQNKLNIHKRFYTALALQDLVNEVPLSEVAGKFQCARGFLQGLQQASATFAGMVTSFCHQLGWKNMEMIISQFQDRLHFGIHSELLELMKLSSLNGVRARTLFNAGFETVASIASAEVNVIENALHKSVPFQSEKQRDEDDMSDLRKRNKIKNIWITGYCGEHEQIFKTKMSEILSNDSLQLDMLSIKTYYAEIKKYFGVNLSYCNDVSLAEWLLDSEEKISTIADLAFKYCDLDLQKMEIKIDNQIKSYKSLNMHEMNCLRAWCLCDIVKQQEKKISQETLVMEKILNTEIQVCKILGDCEYHGITVDKDLVSRFLIDVKNSQEILQKKAFKICGYHFNFNSSKDVAKVLGLYKGRKTSTRKSVLSAHNSPMSSIIIYWRKLNSILTKSLYPITEQACVYTEDNRISPSYTMYTCTGRISMHEPNLQNLPRKFTIPANYLCDNESCDDVIEFNCRKIFRAAPGYVFISADYCQLEMRILTHFSKDVTLTRIMGSDVDVFKSIAASWSGVPEHEVDEDLRHKAKQLCYGILYGMGNRTLSQHLNVTELEAAYFMDMFYKTYPSIKVFTASLIEECRKKGYVETLMKRRRYLPNINSSVPSKRSAAERQAVNTTIQGSAADIAKSAMCSIQQSTSSRLILQMHDELIYEVPVNNKQDFIVILKKSMENTVRLNVPLPVKIKCGQTWGTMEDVK-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: