MonarchBase - Protein-coding gene

DPOGS200463
Transcript	DPOGS200463-TA	1446 bp
Protein	DPOGS200463-PA	481 aa
Genomic position	DPSCF300260 + 224360-229156
RNAseq coverage	260x (Rank: top 41%)

Annotation
*Heliconius*	HMEL013066	0.0	71.43%
*Bombyx*	BGIBMGA011188-TA	1e-168	70.66%
*Drosophila*	NitFhit-PA	8e-119	46.12%
EBI UniRef50	UniRef50_Q17CS4	3e-125	48.05%	Nitrilase, putative n=14 Tax=Coelomata RepID=Q17CS4_AEDAE
NCBI RefSeq	XP_001863190.1	9e-130	49.35%	nitrilase and fragile histidine triad fusion protein NitFhit [Culex quinquefasciatus]
NCBI nr blastp	gi\|170054573	2e-128	49.35%	nitrilase and fragile histidine triad fusion protein NitFhit [Culex quinquefasciatus]
NCBI nr blastx	gi\|170054573	3e-123	49.35%	nitrilase and fragile histidine triad fusion protein NitFhit [Culex quinquefasciatus]

Group
Gene Ontology	GO:0006807	7.2e-87	nitrogen compound metabolic process
	GO:0016810	7.2e-87	hydrolase activity, acting on carbon-nitrogen (but not peptide) bonds
	GO:0003824	3.6e-38	catalytic activity
KEGG pathway
InterPro domain	[21-300] IPR003010	7.2e-87	Nitrilase/cyanide hydratase and apolipoprotein N-acyltransferase
	[328-475] IPR011151	3.6e-38	Histidine triad motif
	[327-475] IPR011146	8.7e-34	Histidine triad-like motif
	[340-429] IPR001310	5.8e-19	Histidine triad (HIT) protein
Orthology group	MCL12225		Single-copy universal gene

Nucleotide sequence:

>DPOGS200463-TA
ATGATCCGGAATTTTACGTTATCAATATTGAAGAATCTGCATTTGGAATCCTCTCAGTTCAGTACAATGGCGAGCAGAAAATTAGCTGTGTGTCAAATGACTTCAGTTGCAGATAAATCAGCAAATTTAAATGTTGTCAGTCAGTTAATAAGCGATGCTGCAAAAGATGATGTTAAGATGTTATTTTTCCCTGAATGCTGCGATTATATTTGTGAGAACAAAGACGAAACAATTAGATCGGCTGAAAATCTTTTGACGGGTGAAACTGTTAAGAAATACAGGGAATTGGCCGCTACGCACAATGTGTGGTTGTCAATGGGCGGATTACATGAAAAGGATGAAGCGAGCGTAGATAAGATATTCAATACACATATAATAATTAATGATAAAGGCGACATAGTACAAACATACAGAAAATTACACTTGTTTGATGTTGACATACCGGAGAGAAATATACGTCTGAAGGAGAGCGACTTCTGTAACCCCGGAGGGCATATAGTTGCGCCTGTTGACACACCGATTGGCAAGATTGGCCTTTCAATATGTTATGACCTTCGATTCCCCGAGCTCAGTACATCTCTAAGTATGATGAAAGCTGAAATACTAACCTATCCTTCTGCCTTTACTTATGCTACTGGCTTGGCTCATTGGCATATACTATTAAGAGCAAGGGCAATAGAGAATCAATGCTACGTGGTAGCGGCGGCTCAAACGGGGCAGCACAATGCTAAAAGACGCTCCTTCGGACATGCGCTCGTAGTGGACCCGTGGGGCGAAGTCCTAGCCGACTGCGGAGACTCCGCTCCTTGTTACAAGGTTGTCGAAATTACTGATAGATTGCAAGAAGTGAGGAAAAACATGCCCGTGTTCCAACACAGACGGCCGGATGTGTACTCCCTGTATTCTTTAAGTATCCGCAACAAACCGTTCAATGAGCCTCCGCCCCCGCCGCCCCGGACTCCGCCCCTCGCCACGACCGGGAACGTGTTCGGTCACGTATCCGTTCCGGAAACGTGCGTCTTCCACAAGTCGGAACTGACTTACGCGTTTGTCAACTTACGTTGTGTGACCCCGGGCCATGTATTGGTAGCGCCTATAAGGTTGGCAGAGAGGAATAAAGATTTGACAGACGAAGAAGCAAGTGACTTCTTTAAAACCGTGAGATTAATACAAAACCTAATGGAACGAGTTCACAATACAGAGTCGTGTACCGTCACTATACAGGACGGACCAGACGCGGGGCAAACCGTGAAGCATCTGCACTGCCATATAATGCCAAGGAAGAAAGGAGATTTCATTGAAAATGATTTGATATACTTGGAGCTAGCGAAACATGATCAGATGAGGTCAGGTCACCCAGCGAAGCCAGCCAGGAGTTTGGAAGAAATGGAAGCAGAAGCGAAATACCTCAGAGAAGAGTTGAAGAAGATGACAGAGACCAGCTAG

Protein sequence:

>DPOGS200463-PA
MIRNFTLSILKNLHLESSQFSTMASRKLAVCQMTSVADKSANLNVVSQLISDAAKDDVKMLFFPECCDYICENKDETIRSAENLLTGETVKKYRELAATHNVWLSMGGLHEKDEASVDKIFNTHIIINDKGDIVQTYRKLHLFDVDIPERNIRLKESDFCNPGGHIVAPVDTPIGKIGLSICYDLRFPELSTSLSMMKAEILTYPSAFTYATGLAHWHILLRARAIENQCYVVAAAQTGQHNAKRRSFGHALVVDPWGEVLADCGDSAPCYKVVEITDRLQEVRKNMPVFQHRRPDVYSLYSLSIRNKPFNEPPPPPPRTPPLATTGNVFGHVSVPETCVFHKSELTYAFVNLRCVTPGHVLVAPIRLAERNKDLTDEEASDFFKTVRLIQNLMERVHNTESCTVTIQDGPDAGQTVKHLHCHIMPRKKGDFIENDLIYLELAKHDQMRSGHPAKPARSLEEMEAEAKYLREELKKMTETS-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: