MonarchBase - Protein-coding gene

DPOGS206336
Transcript	DPOGS206336-TA	3165 bp
Protein	DPOGS206336-PA	1054 aa
Genomic position	DPSCF300082 + 126804-149431
RNAseq coverage	348x (Rank: top 34%)

Annotation
*Heliconius*	HMEL002715	0.0	84.96%
*Bombyx*	BGIBMGA005262-TA	0.0	85.07%
*Drosophila*	CG11796-PA	2e-159	68.87%
EBI UniRef50	UniRef50_D3TQN4	8e-158	68.07%	4-hydroxyphenylpyruvate dioxygenase n=1 Tax=Glossina morsitans morsitans RepID=D3TQN4_GLOMM
NCBI RefSeq	XP_973835.1	9e-160	68.34%	PREDICTED: similar to 4-hydroxyphenylpyruvate dioxygenase [Tribolium castaneum]
NCBI nr blastp	gi\|91090908	2e-158	68.34%	PREDICTED: similar to 4-hydroxyphenylpyruvate dioxygenase [Tribolium castaneum]
NCBI nr blastx	gi\|91090908	6e-155	68.34%	PREDICTED: similar to 4-hydroxyphenylpyruvate dioxygenase [Tribolium castaneum]

Group
Gene Ontology	GO:0009072	8.4e-229	aromatic amino acid family metabolic process
	GO:0016701	8.4e-229	oxidoreductase activity, acting on single donors with incorporation of molecular oxygen
	GO:0003868	8.4e-229	4-hydroxyphenylpyruvate dioxygenase activity
	GO:0055114	8.4e-229	oxidation-reduction process
KEGG pathway	tca:662658	3e-159
	K00457 (HPD, hppD)	maps->	Tyrosine metabolism
			Phenylalanine metabolism
			Ubiquinone and other terpenoid-quinone biosynthesis
InterPro domain	[669-1054] IPR005956	8.4e-229	4-hydroxyphenylpyruvate dioxygenase
	[854-1008] IPR004360	5.8e-19	Glyoxalase/fosfomycin resistance/dioxygenase
Orthology group	MCL11949		Single-copy universal gene

Nucleotide sequence:

>DPOGS206336-TA
ATGAGATCCTGCCGCTCACCACGGCCGCCTGTTCACCAAGCTTACGAGCCCCACAGCCTTCCAGAGTACGACAAACCAAATCCTCCGTCTCGCCAGAGAATAAAAATGACGAAAGTATCAGAGACAATTAAGCAAGCGAAGGGAAAAGTGCTCAACTTCGACCATCTGACGTTTTGGGTGGCCAACGCAAAAACGGCTTCCAGTTACTTCGTAACACGCTTCGGTTTCAAACCCTTGGCTGTTCGTGAACCTTCAGAAGAAAGACAAGTGCTATCCCACGCTGTACAACTCAACAAAATAACTATAATATTCGAGTCACCGACTGTTAATGATCACAACATATCCAAAGATTTAGCAGCCCATGGTGATTTCGTTAAGGACGTATCATTTGAAGTAAGCGACCTGGAATCTATATTCGGAAGCGCTAAAACAAAAGGAGCTCATGTGATTAAAGAGATTACTGAAGAAAGCGACGAAAATGGTCTCATAAGATATGCTGTACTGAGAACGTATGGCGACAATACACATACTCTGGTTGATAGGTCCAAATATAACGGACTGTTGTTTCCTGGGTACAAGAAATCTGAAGAGGATTTAGCCAATAAGTTACTGCCAGACACAAATTTACGTTTTGTGGATCACGTCGAAGGAAATATGGCGGACGAAACTCTAGAAGATTCCGTCTCTTGGTATGAAAAGAACCTCAACATGCTCAGATTTTGGTGTGTTGACTACAGCCATGATTTGACGCCGTATTCATGTATCAACTCAGCTGCTGTTATTAACGAAAACGAAACCGTTCTTTTATCTATGAACGAGTCAGCCCCGGGTAAGCGTCCTACTAGCAAGGCTCGCGACTTCGTAGCATCACACGGCACGTCCGGCATTGAACACGTCGCCTTTTATACTGACGATATTGTACACACTGTGGATAAAATGACGAAAGTATCAGAGACAATTAAGCAAGCGAAGGGAAAAGTACTCAACTTCGACCATCTGACGTTTTGGGTGGCCAACGCAAAAACGGCTTCCAGTTACTTCGTAACACGCTTCGGTTTCAAACCCTTGGCGGTTCGTGAACCTTCAGAAGAAAGACAAGTGCTATCCCACGCTGTACAACTCAACAAAATAACTATAATCTTCGAGTCACCGACTGTTAATGATCACGACATATCCAAAGATTTAACAGCCCATGGTGATTTCGTTAAGGACGTATCATTTGAAGTAAGCGACCTGGAATCTATATTCGGAAGCGCTAAAACAAAAGGAGCTCATGTGATTAAAGAGATTACTGAAGAAAGCGACGAAAATGGTCTCATAAGATATGCTGTACTGAGAACGTATGGCGACAATACACATACTCTGGTTGATAGGTCCAAATATAACGGACTGTTGTTTCCTGGGTACAAGAAATCTGAAGAGGATTTAGCCAATAAGTTACTGCCAGACACAAATTTACGTTTTGTGGATCACGTCGAAGGAAATATGGCGGACGAAACTCTAGAAGATTCCGTCTCTTGGTATGAAAAGAACCTCAACATGCTCAGATTTTGGTGTGTTGACTACAGCCATGATTTGACGCCGTATTCATGTATCAACTCAGCTGCTGTTATTAACGAAAACGAAACCGTTCTTTTATCTATGAACGAGTCAGCCCCGGGTAAGCGTCCTACTAGCAAGGCTCGCGACTTCGTAGCATCACACGGCACGTCCGGCATTGAACACGTCGCCTTTTATACTGACGATATTGTACACACTATGAAGAGTTTAAAAGCACGTGGCGCCGATATTGTAACCTGGCCACCGACGTATTACGAACTTATAAAGGAGAAACTCAAAGAGAGCTCCGTAAACGTTACCGAAAGTATTGAAGAACTGAAGGAAAATAACATATTGATAGACTTCGACGAAAAAGGTTACATGCTGCAAGCTTTCACTAAACATCTACAAGTTCGTCCGACACTATTTATAGAGGTCATACAAAGGAGGAATCATAAGGGTTTCGGAGCTATGAACTATCAATGGACGTCCTACACAGACAAGGGAAAAAAACCCGAAGACGGTCGGTTCCTAGCTTTCGATCATGTAACCTTCTGGGTTTCAAACGCTAAACAGGCCGCTAGTTATTACGTCACACGGTTCGGGTTCGAACCGCTCGCTTACAAAGGTTTAGAAACAGGATCCAGGCAGTTTTCCTCTCACGCTGTCAGATTAAATAAAATCATTTTCGTGTTTGAGGGTCAGTATAACCCAGAAGAGACAGATTTCATCAACGAAGTAGGTTATCACGGCGACTTTGTGAAGGATGTCGCCTTTGAAGTTGAAAACTTGGATTACATTCTAAACTACGCTAAAAAACAAGGTGCAGTTGTTATCAAGGACGTTTGGGAAGAAAAAGACGAGCATGGAGTGGTCAAGTCAGCTACACTTAAAACGTACGGCGACAATACGCATACTTTAGTGGATAGATCACAATATAAGGGACCCTTCCTGCCTGGATATCAGATGTTACAGAAGGATCCCATTCATAAATTCCTACCGAAGGTGGAGATTAACTTCATAGATCACGTGGTGGGAAATCAACCAGACAATGGTCTCGAGGAAGCGGCGTCGTGGTATGAACGCTGTCTGCAGTTCCATCGGTTCTGGTCGGTGGACGATAAGCAAATATGCACGGAGTATTCGTCACTGCGATCAATAGTGATGGCGAACTATGAGGAGACGGTTAAGATGCCGCTCAACGAACCCGCAGACGGCAAACGGAAGAGTCAGATTCAGGAATACGTGGAGTACCACGGGGGTGCGGGAGTTCAACACATCGCTTTGAACACAGAAGATATCATAACAGCCGTTGAAAATCTTCGAGCACGAGGAGTAGAATTCTTGACAATTCCATCAAAGTACTACAAGCTGATCAGAGAAAAACTATCACACAGCAAGGTGAAGGTGGCTGAGAGTATAGACATATTGGAGCGCCTCAATATCCTCATTGATTACGATGATGACGGGTATTTACTGCAGATATTCACAAAGAACACCCAGGATCGCCCCACACTCTTCTTGGAAGTTATACAGAGAAGAAATTTCAATGGTTTCGGCGCCGGTAACTTTAAAACTTTATTCGAGTCTATAGAAATCGAGCAAGAAAAGAGAGGAAACTTATAA

Protein sequence:

>DPOGS206336-PA
MRSCRSPRPPVHQAYEPHSLPEYDKPNPPSRQRIKMTKVSETIKQAKGKVLNFDHLTFWVANAKTASSYFVTRFGFKPLAVREPSEERQVLSHAVQLNKITIIFESPTVNDHNISKDLAAHGDFVKDVSFEVSDLESIFGSAKTKGAHVIKEITEESDENGLIRYAVLRTYGDNTHTLVDRSKYNGLLFPGYKKSEEDLANKLLPDTNLRFVDHVEGNMADETLEDSVSWYEKNLNMLRFWCVDYSHDLTPYSCINSAAVINENETVLLSMNESAPGKRPTSKARDFVASHGTSGIEHVAFYTDDIVHTVDKMTKVSETIKQAKGKVLNFDHLTFWVANAKTASSYFVTRFGFKPLAVREPSEERQVLSHAVQLNKITIIFESPTVNDHDISKDLTAHGDFVKDVSFEVSDLESIFGSAKTKGAHVIKEITEESDENGLIRYAVLRTYGDNTHTLVDRSKYNGLLFPGYKKSEEDLANKLLPDTNLRFVDHVEGNMADETLEDSVSWYEKNLNMLRFWCVDYSHDLTPYSCINSAAVINENETVLLSMNESAPGKRPTSKARDFVASHGTSGIEHVAFYTDDIVHTMKSLKARGADIVTWPPTYYELIKEKLKESSVNVTESIEELKENNILIDFDEKGYMLQAFTKHLQVRPTLFIEVIQRRNHKGFGAMNYQWTSYTDKGKKPEDGRFLAFDHVTFWVSNAKQAASYYVTRFGFEPLAYKGLETGSRQFSSHAVRLNKIIFVFEGQYNPEETDFINEVGYHGDFVKDVAFEVENLDYILNYAKKQGAVVIKDVWEEKDEHGVVKSATLKTYGDNTHTLVDRSQYKGPFLPGYQMLQKDPIHKFLPKVEINFIDHVVGNQPDNGLEEAASWYERCLQFHRFWSVDDKQICTEYSSLRSIVMANYEETVKMPLNEPADGKRKSQIQEYVEYHGGAGVQHIALNTEDIITAVENLRARGVEFLTIPSKYYKLIREKLSHSKVKVAESIDILERLNILIDYDDDGYLLQIFTKNTQDRPTLFLEVIQRRNFNGFGAGNFKTLFESIEIEQEKRGNL-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: