MonarchBase - Protein-coding gene

DPOGS212235
Transcript	DPOGS212235-TA	3750 bp
Protein	DPOGS212235-PA	1249 aa
Genomic position	DPSCF300263 + 231797-243218
RNAseq coverage	301x (Rank: top 37%)

Annotation
*Heliconius*	HMEL016800	77.06%
*Bombyx*	BGIBMGA004447-TA	76.06%
*Drosophila*	CG4752-PA	61.08%
EBI UniRef50	UniRef50_Q8T5H1	58.84%	AGAP001606-PA n=7 Tax=Eukaryota RepID=Q8T5H1_ANOGA
NCBI RefSeq	XP_970328.1	64.07%	PREDICTED: similar to RE08455p [Tribolium castaneum]
NCBI nr blastp	gi\|383847651	64.98%	PREDICTED: 5-oxoprolinase [Megachile rotundata]
NCBI nr blastx	gi\|194754898	61.15%	GF11895 [Drosophila ananassae]

Group
Gene Ontology	GO:0003824	2e-121	catalytic activity
	GO:0016787	3.5e-96	hydrolase activity
KEGG pathway	tca:658884	0.0
	K01469 (E3.5.2.9)	maps->	Glutathione metabolism
InterPro domain	[873-1215] IPR003692	2e-121	Hydantoinase B/oxoprolinase
	[237-534] IPR002821	3.5e-96	Hydantoinase/oxoprolinase
	[9-218] IPR008040	1.3e-55	Hydantoinaseoxoprolinase, N-terminal
Orthology group	MCL11863		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS212235-TA
ATGAATAAACCAAGAGGATTTCAATTTGCAATTGATCGAGGAGGTACATTTACTGATGTATATGCTCAGTGTCCAAATGGCAAAGTGCGTGTTATGAAACTTTTGTCAGTAGATCCTCAGAACTATGATGATGCACCAAGAGAGGCTATTAGACGGATATTGCATGAGGAAACTGGTAATGCGGTAGATGAATGTGGAAAAGTCAATTCATCTCTCATAGAATCTATTAGGATGGGTACAACAGTCGCAACCAATGCTCTATTGGAAAGGAAGGGAGCTAAAATGGCTCTTGTCATTAACAAAGGATTTAAAGATCTTTTATTTATTGGAAATCAGGCACGGCCAAATATATTTGATTTGAATATAAGACGTCCTGGTGTTCTTTACAAAGAGGTTGTGGAAATCGATTGTCGTGTGATACCAGCATTAGAAGATCGCTGTGAGATTGACAAGTCTAAATTGGATTGGAAGGAAGTCATAGGAACTACTGGTCAGAAGATGTTGGTTATTAAAGACATTGATGAGGAAGCGGTGCGGAGAGATCTGGCGACTTTAAGAGAGAAAGGGATAGACAGTATAGCTGTGGTACTAGCTCATAGCTATACATACAGGGATCACGAATTGAAGATTGGAAGAATTGCTGAGGAATTAGGTTTCAACCAGGTGTCTTTGTCCCATGCGGTGATGTCTATGGTGAGGATGGTTCCCAGAGGCTATACAGCATCAGCAGACGCGTACCTCACTCCCCACATCCGGGAGTACGTGACCAGTTTCTCCAGCGGCTTCACTGATGGTCTGAAGAACACCAACGTGCTCTTCATGCAGTCGGATGGCGGACTTACGCCTATGAACATGTTTAATGGTTCGCGTGCTATACTGTCCGGACCGGCCGGCGGTGTGGTGGGCTACGCACTAACTTCATACAACAAACAAACCGGTCTACCAGTTATAGGTTTCGACATGGGCGGGACGTCGACTGACGTGTCTCGGTACGCGGGATCCTTGGAGCACGTGCACGAGGCCACGACCGCCGGGGTCACCATACAGGCGCCGCAGCTAGATATAAACACGGTGGCAGCCGGCGGTGGGTCTGTGCTGTCGTTCCTCTCGGGCCTGTTCTCTGCAGGGCCCGAGTCCGCTGGGGCCCACCCCGGGCCCGCGTGCTACAGGCGAGGGGGCCCGCTCACGGTCACGGACGCTAACTTACTGCTAGGTCGCCTGCGGCCTGATTATTTTCCAAAAATTTTCGGTCCGGCTGAGAACGAGCCCTTGGATACAGAAGCGACGCTCGCCGGCTTTAAGAAAATGACGGCAGAAATCAATGCATTCCTCAAACAGGAAGGAAACAAAGAGATGACGTTGGAGGAGGTGGCCATGGGCTTCATCAACGTCGCCAACGAGGCCATGTGCCGGCCGATCAGGTCATTGACCACAGCCCGGGGACACGATGCCCGGGCGCACGCGCTCGCATGCTTTGGGGGCGCGGGGGGCCAACACGCCTGCAGCGTGGCCCGCCGCCTGGGGATAAAGACGGTGCTCATACACAAGTACGCCGGTATCCTGTCAGCGTACGGCATGGCTCTAGCGGACGTGGTCCAAGAGGAACAGACGCCGTGTGCTGATGTGTACCGACCAGAAAACTATCGACATCTGGACGAACAGATCGATAGACTCTCCGCTGTATGTAAGGAGAAGCTTAGAGCTCAGGGCTTCACCGACGACCAGATAACACTAGAGCCGTACCTCCACTTGAGGTATTCCGGAACCGACTGTGCCCTCATGGTTTCTCCCATACAGGGCGACCAGGCTACCAGACATGGCGACTTCTACGCAGCCTTTGTTAACAGATATAAGAACGAGTTTGGCTTCACGCTATCTAACCGGGAGGTGGTAGTGGATGACGTCAGAGTGAGAGGTGTTGGAAGAAGTGGGGGAAGAAAAGAGACGGCGCTAGAGGTGGAGAAGGAAACGACACCCGCCGTTGATAATGTCGTCCAAGTCTACTTCGAAGGCGGTTATCAGAACACTGCTATATATCCGCTGGAGAAACTATCACCAGGTCATAAAATTCCAGGTCCGGCCATTATAATGGACAAATTGTCTACTATACTTGTGGAGCCGGGATGTACAGCAGATATTACTAAATACGGCGACGTGAGTATCACTATAGGCTCTGGTCAGAAGACGGAAGTGACGTCACAACTGGACTCGGTCCAGCTCAGCATCTTCTCTCACAGATTCATGTCGATAGCTGAGCAGATGGGGAGGGTTCTGCAACGTACATCAATATCAGTGAATATAAAGGAGCGTCTGGACTTCTCGTGCGCGCTGTTCGGGGCGGACGGCGGGCTCGTCTCTAACGCGCCACACATACCGGTACACCTGGGGGCCATGCAGGAGACGGTGCAGTATCAGATGAAGGTCCGCGGCTCGTCTCTGCAGCCCGGGGACGTGCTGCTGTCCAACCACCCCCGGGCTGGCGGCTCCCACCTCCCGGACCTCACCGTCATCACCCCGGTCTTCCACGAGTATGATCGTATACACCAGAATACTATACAGCAGTATCCTTACAGATATATAAAGCTGATGAAGCCAGGTCAAGTCCCCGGGTGCTCCGGGACGAGGAATCTAGCGGACAACCTCTCAGATCTGAAGGCTCAAGTCGCCGCCAACCAAAGGGGCATACAACTGGTGTCCGAGCTGATAGAAGAATACAGCCTCGACGTGGTCCAAGCTTACATGACTCATATACAGAAGAACGCTGAACTAGCCGTTAGGGAAATGTTGAAGCAAATAGCGGAGAAGACAATCAAGAAGACGGGCTCATGTGTTCTGAAAGCCACAGAGTATTTGGACAACGGTGCACCAATCGCTTTGACGGTTACACTGGACCCCAGCACTGGCGGAGCTATCTGTGACTTCACTGGCACCGGCGTGGAGGTGTGGGGTAACTTGAACGCCCCTCGCGCCATAACTATGTCCGCTATCATTTACTGTCTGCGGTGTATGGTGGGCAGAGATATACCGCTCAACCAGGGGTGTCTGAATCCCGTGACCGTTATAATACCTCGTGGTAGTTTACTGGACCCCAGCGACTCAGCCGCTGTGGTCGCCGGGAACGTGCTCACGTCACAGAGGCTCGTGGACGTCATCCTCAAAGCCTTCCAGGTTTGTGCCGCCTCTCAAGGTTGTACCAACAATTTGACACTCGGCGAGACCACCTGGGGATATTACGAGACGGTGGCAGGCGGCAGCGGAGCGGGTCCGGGCTGGCACGGGGCGTCGGGAGTTCACACACATATAACGAACACACGCATCACGGACGTGGAGATAGTCGAAACGAGATACCCCATGATCGTGACCAACTTCTCACTGAGGAGCGGCTCCGGGGGACGGGGTAAATGGCGCGGCGGGGACGGCGTGACCCGCGAGCTGGTGTTCCGACGCACTGTGCAGGTGTCCGTCCTCACCGAACGGAGAGCCTTCCAGCCGTACGGAATGAACGGAGGGGAACCTGGCGCTAGAGGTCTGAACCTGCTCCAGCGAGCTGACGGGAGACTAATTAATCTCGGAGGAAAATCCTCAGTTACAGCGTCTCCTGGAGATAAATACATCATGAATTCGCCGGGCGGAGGTGGCTACGGTCGACCGTTAGGTGATGAGACAGGCGAACAAACAGACATACAACACAATGAGTTCGTGGAGAGAGGAAGCGTCTTCGAGTATAGAAGCGCCCAAGAATCAGTTTAG

Protein sequence:

>DPOGS212235-PA
MNKPRGFQFAIDRGGTFTDVYAQCPNGKVRVMKLLSVDPQNYDDAPREAIRRILHEETGNAVDECGKVNSSLIESIRMGTTVATNALLERKGAKMALVINKGFKDLLFIGNQARPNIFDLNIRRPGVLYKEVVEIDCRVIPALEDRCEIDKSKLDWKEVIGTTGQKMLVIKDIDEEAVRRDLATLREKGIDSIAVVLAHSYTYRDHELKIGRIAEELGFNQVSLSHAVMSMVRMVPRGYTASADAYLTPHIREYVTSFSSGFTDGLKNTNVLFMQSDGGLTPMNMFNGSRAILSGPAGGVVGYALTSYNKQTGLPVIGFDMGGTSTDVSRYAGSLEHVHEATTAGVTIQAPQLDINTVAAGGGSVLSFLSGLFSAGPESAGAHPGPACYRRGGPLTVTDANLLLGRLRPDYFPKIFGPAENEPLDTEATLAGFKKMTAEINAFLKQEGNKEMTLEEVAMGFINVANEAMCRPIRSLTTARGHDARAHALACFGGAGGQHACSVARRLGIKTVLIHKYAGILSAYGMALADVVQEEQTPCADVYRPENYRHLDEQIDRLSAVCKEKLRAQGFTDDQITLEPYLHLRYSGTDCALMVSPIQGDQATRHGDFYAAFVNRYKNEFGFTLSNREVVVDDVRVRGVGRSGGRKETALEVEKETTPAVDNVVQVYFEGGYQNTAIYPLEKLSPGHKIPGPAIIMDKLSTILVEPGCTADITKYGDVSITIGSGQKTEVTSQLDSVQLSIFSHRFMSIAEQMGRVLQRTSISVNIKERLDFSCALFGADGGLVSNAPHIPVHLGAMQETVQYQMKVRGSSLQPGDVLLSNHPRAGGSHLPDLTVITPVFHEYDRIHQNTIQQYPYRYIKLMKPGQVPGCSGTRNLADNLSDLKAQVAANQRGIQLVSELIEEYSLDVVQAYMTHIQKNAELAVREMLKQIAEKTIKKTGSCVLKATEYLDNGAPIALTVTLDPSTGGAICDFTGTGVEVWGNLNAPRAITMSAIIYCLRCMVGRDIPLNQGCLNPVTVIIPRGSLLDPSDSAAVVAGNVLTSQRLVDVILKAFQVCAASQGCTNNLTLGETTWGYYETVAGGSGAGPGWHGASGVHTHITNTRITDVEIVETRYPMIVTNFSLRSGSGGRGKWRGGDGVTRELVFRRTVQVSVLTERRAFQPYGMNGGEPGARGLNLLQRADGRLINLGGKSSVTASPGDKYIMNSPGGGGYGRPLGDETGEQTDIQHNEFVERGSVFEYRSAQESV-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: