MonarchBase - Protein-coding gene

DPOGS215089
Transcript	DPOGS215089-TA	2367 bp
Protein	DPOGS215089-PA	788 aa
Genomic position	DPSCF300187 + 223586-232116
RNAseq coverage	235x (Rank: top 43%)

Annotation
*Heliconius*	HMEL010535	89.02%
*Bombyx*	BGIBMGA007191-TA	89.20%
*Drosophila*	Xpd-PA	76.84%
EBI UniRef50	UniRef50_E3XFQ7	70.26%	Putative uncharacterized protein n=2 Tax=Anopheles darlingi RepID=E3XFQ7_ANODA
NCBI RefSeq	XP_970844.1	78.95%	PREDICTED: similar to Xeroderma pigmentosum D CG9433-PA [Tribolium castaneum]
NCBI nr blastp	gi\|91079234	78.95%	PREDICTED: similar to Xeroderma pigmentosum D CG9433-PA [Tribolium castaneum]
NCBI nr blastx	gi\|91079234	79.05%	PREDICTED: similar to Xeroderma pigmentosum D CG9433-PA [Tribolium castaneum]

Group
Gene Ontology	GO:0016817	1.9e-262	hydrolase activity, acting on acid anhydrides
	GO:0004003	2.1e-120	ATP-dependent DNA helicase activity
	GO:0016818	2.1e-120	hydrolase activity, acting on acid anhydrides, in phosphorus-containing anhydrides
	GO:0005634	1.8e-91	nucleus
	GO:0003677	1.8e-91	DNA binding
	GO:0005524	1.8e-91	ATP binding
	GO:0006289	1.8e-91	nucleotide-excision repair
	GO:0006139	6.2e-69	nucleobase, nucleoside, nucleotide and nucleic acid metabolic process
	GO:0008026	6.2e-69	ATP-dependent helicase activity
	GO:0003676	6.2e-69	nucleic acid binding
KEGG pathway	tca:659447	0.0
	K10844 (ERCC2, XPD)	maps->	Nucleotide excision repair
InterPro domain	[36-736] IPR013020	1.9e-262	DNA helicase (DNA repair), Rad3 type
	[36-308] IPR006554	2.1e-120	Helicase-like, DEXD box c2 type
	[36-53] IPR001945	1.8e-91	Xeroderma pigmentosum group D protein
	[570-714] IPR006555	6.2e-69	Helicase, ATP-dependent, c2 type
	[297-441] IPR010643	6.8e-51	Domain of unknown function DUF1227
	[100-283] IPR010614	2.5e-50	DEAD2
Orthology group	MCL10922		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS215089-TA
ATGGCTTACTGGTATATTTCCCTTATGACTACATATATCCAGAACAGTATGCCTATATGCTGGAACTTAAACGAGCCCTTGATGCTAAGGTTGACCGTTGATGGTTTACTGGTATATTTCCCTTATGACTACATATATCCAGAACAATATGCCTATATGCTGGAACTTAAACGAGCCCTTGATGCTAAGGGCCACGGATTACTTGAAATGCCTTCAGGGACTGGTAAAACTATATCCTTGTTATCGCTTATTGTGGCTTACATGATACAAAACCCACATCACGTCAGAAAACTCATCTATTGTTCCCGAACTGTACCTGAAATAGAAAAAGTCTTAGAGGAACTTAAGAATCTTATAAAATATTATGAAAAGTCTCAAGGTGAGAAGCCGAGCTTGACGGGCGTTGTGCTCAGTTCAAGGAAAAACTTGTGCATACATCCAGAGGTATCAAGAGAGCGTGAGGGGAAGCTGGTTGATGGGAAATGTCATTCGCTAACGGCCAGTTACATCAGAGACAGACACGAACAGGACCCTTCAGTGCCCATATGTCAATTCTATGAGGGTTTTAACCGTGAGGGTCGCGAGTCCATGCTGCCGTATGGAGTGTACACTATGGATGACCTCAAACAATACGGAGCTGACAGGAACTGGTGCCCCTACTTCCTGTCTAGATTCGCTATAATCCACGCTGAGATAGTTGTGTACTCGTACCACTACTTATTAGATCCTAAGATAGCTGAAGTGGTATCAAAAGAACTGAACAAGGAGGCTGTGGTGGTGTTCGATGAGGCACATAATATAGATAATGTTTGTATCGACTCTCTAAGTGTGAAGATCACGAGGCGGACTATCGATAAGAGCACGCAAGCACTACAGACGCTAGAAAAAGCTGTGTCACAATTAAAACAAGAGGACGAGGCGCGCCTGGCGCTGGAGTACGAGCAGATGGTGGAGGGTCTGAGGGAGGCGGCGCAGCTGAGGGACAGTGACGTCATACTGGGCAACCCTGTACTACCTGATGAACTGCTCAACGAGGTGGTCCCTGGCAACATCAGGAACGCGGTCCACTTCCTCGGGTTCTTGAAGCGGTTCATAGAATACTTGAAGACGAGGCTGCGGATACAGCACGTGGTGCAGGAGTCGCCGGCCGGTTTCTTAAAGGACGTGTCGTCTCGCGTGTGTATCGAGCGCAAGCCTCTCCGTTTCGTGTCGTCGCGGCTCCAGACCCTGATGAAGACCCTCCAGATCCCGGACCCCTCGAACTTCGGCTCCTTAACACTAGTGGCGCACCTGGCGACGCTCGTGTCCACGTACACCAAGGGCTTCGTCATCATCATAGAGCCCTTCGATGACAAAACCCCGACCGTCTCCAATCCAATACTACACTTCTCATGTATGGACTCGTCGATAGCCATGCGGCCAGTGTTCGGTAGATTTCAAACTGTCATCATCACTTCCGGTACGCTATCTCCCCTGGACATGTATCCCAAGATCCTGGACTTTAACCCCGTAGTAATGAGCTCCTTCACTATGACGCTCGCCCGACCTTGCATACTGCCCATGATAGTGTCCAAAGGTAGCGACCAAGTGGCGATTTCTTCAAAGTACGAGACACGAGAAGACGTCGCGGTGATAAGGAACTACGGACAACTACTAGTAGAGATATCAGCCTGCGTGCCGGACGGGGTGGTGTGCTTCTTCACTTCGTATCTGTACCTGGAGAGCGTGGTCGGAGCTTGGTATGATCAGGGTGTCGTCGCCAATTTACAGAAACACAAGCTGCTGTTTATCGAGACGCAGGACTCGGCGGAGACCAGCTTCGCCTTAATAAACTACATTAAGGCGTGCGAGAGCGGTCGTGGGGCGGTGTTGCTATCGGTGGCGCGCGGCAAGGTCTCGGAGGGAGTGGACTTCGACCATCACCTCGGACGGGCGGTCCTCATGTTCGGGATACCTTACGTGTTCACTCAGAGCAGGATATTAAAGGCCCGTCTAGAGTACCTGAGAGATCAGTTCCAGATCCGTGAGAACGATTTCCTAACGTTCGACGCGATGCGTCACGCGGCTCAGTGTGTTGGCCGAGCGTTGAGAGGCAAGACGGACTACGGTATAATGATATTCGCTGACAAGCGCTTCAGTCGCTCGGACAAGAGAAGTAAGCTACCGCGGTGGATACAAGAACATCTGAGGGACTCGCTCTGCAACCTCAGTACCGAGGAAGCCGTACAGATAAGTAAGCGTTGGCTCCGCCAGATGTCGCAGCCGTTCAGCCGCGAGGACCAGCTGGGAGTGTCGCTGTTGACGCTCCAGCAGTTACAGAGCAAGGAGCAGCAGGAGAAGATCGAGAAGCAGGTCCTCCAGAAGTAG

Protein sequence:

>DPOGS215089-PA
MAYWYISLMTTYIQNSMPICWNLNEPLMLRLTVDGLLVYFPYDYIYPEQYAYMLELKRALDAKGHGLLEMPSGTGKTISLLSLIVAYMIQNPHHVRKLIYCSRTVPEIEKVLEELKNLIKYYEKSQGEKPSLTGVVLSSRKNLCIHPEVSREREGKLVDGKCHSLTASYIRDRHEQDPSVPICQFYEGFNREGRESMLPYGVYTMDDLKQYGADRNWCPYFLSRFAIIHAEIVVYSYHYLLDPKIAEVVSKELNKEAVVVFDEAHNIDNVCIDSLSVKITRRTIDKSTQALQTLEKAVSQLKQEDEARLALEYEQMVEGLREAAQLRDSDVILGNPVLPDELLNEVVPGNIRNAVHFLGFLKRFIEYLKTRLRIQHVVQESPAGFLKDVSSRVCIERKPLRFVSSRLQTLMKTLQIPDPSNFGSLTLVAHLATLVSTYTKGFVIIIEPFDDKTPTVSNPILHFSCMDSSIAMRPVFGRFQTVIITSGTLSPLDMYPKILDFNPVVMSSFTMTLARPCILPMIVSKGSDQVAISSKYETREDVAVIRNYGQLLVEISACVPDGVVCFFTSYLYLESVVGAWYDQGVVANLQKHKLLFIETQDSAETSFALINYIKACESGRGAVLLSVARGKVSEGVDFDHHLGRAVLMFGIPYVFTQSRILKARLEYLRDQFQIRENDFLTFDAMRHAAQCVGRALRGKTDYGIMIFADKRFSRSDKRSKLPRWIQEHLRDSLCNLSTEEAVQISKRWLRQMSQPFSREDQLGVSLLTLQQLQSKEQQEKIEKQVLQK-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: