MonarchBase - Protein-coding gene

DPOGS210662
Transcript	DPOGS210662-TA	3381 bp
Protein	DPOGS210662-PA	1126 aa
Genomic position	DPSCF300401 + 179470-191229
RNAseq coverage	158x (Rank: top 52%)

Annotation
*Heliconius*	HMEL010784	0.0	60.46%
*Bombyx*	BGIBMGA001803-TA	0.0	70.00%
*Drosophila*	Dip-B-PB	5e-107	45.11%
EBI UniRef50	UniRef50_E2C718	1e-109	42.62%	Putative aminopeptidase W07G4.4 n=2 Tax=Formicidae RepID=E2C718_HARSA
NCBI RefSeq	XP_969358.1	2e-113	44.25%	PREDICTED: similar to Sb:cb283 protein [Tribolium castaneum]
NCBI nr blastp	gi\|91091270	4e-112	44.25%	PREDICTED: similar to Sb:cb283 protein [Tribolium castaneum]
NCBI nr blastx	gi\|91091270	2e-108	44.33%	PREDICTED: similar to Sb:cb283 protein [Tribolium castaneum]

Group
Gene Ontology	GO:0005622	4.5e-50	intracellular
	GO:0004177	4.5e-50	aminopeptidase activity
	GO:0006508	4.5e-50	proteolysis
	GO:0005737	4.5e-28	cytoplasm
	GO:0008235	4.5e-28	metalloexopeptidase activity
	GO:0019538	4.5e-28	protein metabolic process
	GO:0030145	4.5e-28	manganese ion binding
	GO:0004222	1.3e-06	metalloendopeptidase activity
KEGG pathway	tca:657830	6e-113
	K01255 (CARP, pepA)	maps->	Glutathione metabolism
InterPro domain	[179-486] IPR000819	4.5e-50	Peptidase M17, leucyl aminopeptidase, C-terminal
	[262-279] IPR011356	4.5e-28	Peptidase M17
	[518-569] IPR024079	4.7e-08	Metallopeptidase, catalytic domain
	[514-568] IPR001506	1.3e-06	Peptidase M12A, astacin
Orthology group	MCL16105		Insect specific

Nucleotide sequence:

>DPOGS210662-TA
ATGTCGCCGTTTAAATTGTACGAGAATATTTTTATTGAGACGAATCTTTTATCCTCGGACTATGACGGCGTTATCCTCATACTGTATCCCAGGGACATGAATGTGGCGTTGCCCAGGCATGTGTCGAGCTTCATAGACAAAATCTTTATCCTGGATAAGAGTATTTACAAGACGCCCAGCGTTTGGAACTGTGATTACGTTTCTGGAGGGCGGTTGGTGCTGTCGCCGGTAGGTAATGTAACTCCATACCATGACGTTACCGTGGTGAGAGAAGCCGCGAAGAGGGGAATGCTGCGAGCAATGGAAGCCGGTATGACCAAACCGTTGCTGATCGTTGAAAACGTAGTCCATTACCCCGACGGGCAATTAGTCTGCATTCTGGGGGCTCTGGAATCCTTATATGTTCCGATACAGATAAGGGAGATGAAACCCCAGAAACAGGTATACAGAATCGGTCTGCATGCTGAGGAAAAAGCAACTGAGTCATTTGAAAAGATAGTTAGAAACGCTATCGCCTTGGAGCGAGCTAGGATCGTAGCTAGAGACATCGCTGGCGGGGATCCCGAGAGAATGGCTCCCGGGAGGATAGCTGATTATGTAGTCAAAGTGTTCGCCGAAGATCCTTGTGTATCCATCAAAATTATTGACAACGATGATATTATAGCGCAGAAATATCCACTGCTGGCAGCTGTATCGCGGGCAGCGAATAACGTGGAGAGACACAAGGCTAGAGTTGTTTTACTGGAGTACAATTCATCTAACCCGGTCAGGGTGACAGAAACCATAATGTTGGTTGGCAAAGGGGTGACGTACGACACTGGCGGCGCTGATATAAAGATATCTGGCAAGATGGCCGGCATGTCCAGGGATAAATGCGGGGCAGCGGCTGTAGCTGGGTTTTTGAAGGCCTGCTCCATACTGAAACCTCCACATCTGAAGGTCATTGGGGTTATGTGTTTGTGTCGCAATTCTATCGGCTCAGATTCCTATGTGTCTGATGAATTGCTAACATCCAGTAGCGGAAAACTGGTCAGGGTTACCAACACGGATGCGGAGGGTAGGCTAGCTATGGCAGATTCTCTTTACATGCTGGCCAATATGGCGGAAAAAGAGCTCAACCCACATCTCTACACCATAGCGACTTTGACCGGACACGCCAGAGCCTGCTACGGTAATTATACAGCAGCTATGGACAATCACAGCGCCAAGGGCACCAACCACTCGAGCAAATTGCAGTTCAGCGGGTCAAGACTCGGAGAAGGATTCGAGATATCTACCGTGAGGGCCGAGGATTTGGCTGTAAATGATGGGAAATGTAGCGGAGATGATCTCGTTCAATATGACACTGACGCGAAATGCCGCAACCACCAGCTAGCTGCAGGGTTTCTGATCAGGGTTGCCGGTTTGGAAGACAAGAATATAAAATACACGCATCTCGATATAGCTGGAGCGGCGGGATGTCCTCCGGAAAAGCCCACAGCGACGCCCGTCTTATCTTTGTGCTCAATTCCGTTATTTACCAAAGAGAAGATACTTCCTCTAGAGCTACGAGCTCTGCCGTATGACGTCGACAGTGTCATGCATTTCAATGAAAGGGATTTCAGCAAGAACGGTCACAGAACTTTATTATTCAAGAACGACAAGACTCCACAGAAAAGAATCGGTCTATCTAAAACCGACTTAAAAAAGATAGAATTAGTTTATGGGCCAGAATGTTTGAAACGAGAGCGACAAGCAAAAATCGATATTTGTAGAAACTTCCCAGCTGTTAGGAGAAAGCGAGAAATCGATTTTGCAACAGTCGGAAGCCTTAGAGTCAATCCGGAAATAACCCCGCCGCCGGATACAAACAATCAGGAGAATCTGACAGACGAATTGACAAATAATCTAAAAGAACTCGGCATAGAAGAAGAGGTGCAGCTACTGATAGAGCAAATACACAAAGTTACGGCTACAGCGCTGACAAACGCCAAACTAAAGCATTGTAACACCACAAAGAATGGCAGCGGAGATAACAAGAAGGCGGATTTAAAGGAAATAATATATAAAGTCAATGAATACGCCAGAGCTGTGGTCCAGAACGCGTTGACAAACATGACTGTGTTCTGCGATGACGCCAATTCTATGGAGAAATTCCAAATTGGGAGGTGCCAATGGGGTCCTAACAGTAGATGTCCCGTGTACTTCAGATCGACTATGCCTGGGCCTGTCAAATATTCCACACAGCACCGTCCATTGATCCGACAATCGACAAAGCATGAGGGTAGAGGGATAAAACATCAATACGTCCCATGGCTGAGGTCCCAAAATGGAACGGAAGAGAAAAACTTGACGAGGGCAAAGCGTGACGTGAATCAGACAAACTCTGGACCAGCCAACGAGACTGTCAAAGAGGTCTTGAGAATGGCGACAAGGATAATGACTGACAAGAAGGTTGACTTTGCACCTGTCAGACGCAGCTACCAAAGTGTTGGACCCAGAGAGAAGAAGAAAGATAGGAAAGAGAGAAAGGAGAGAAAGTTATTCCGTGTACCTAAAACAGTGCAGCTCTCGAAGGAGAACATAGAGTTCTACGCGGAGAGAATATGGCCGGATGGCGTCGTCAACTATGTCATAAAAGACGATGTGAACTACGATTCGAACAAAGTCCGCGAACGCCTGGCGGAGGTGAATAGGATATTACGCCGGCGGACTTGTGTGAGATTGAACGAAATGAGCGAGGAGGGAGCGAGACGGCTGACAGACTATCTCGTTCTAGACACCGGCAGGGATTACGTCACGGGGCGGGTCGGCGGGAAGCAGCCAAGGAAGAAGAAACTAAAACCACGACACCGACCAGAAGAGAAGAGAGTTACGACCTTCGATGAAGACGGAGATAAAACGAAGCAGAATATAGAAGAACGCGTTGAGAGGTATAAAGAAGAAAGACCCAGAGAGAAGAAGAAAGATAGGAAAGAGAGAAAGGAGAGAAAGTTATTCCGTGTACCTAAAACAGTGCAGCTCTCGAAGGAGAACATAGAGTTCTACGCGGAGAGAATATGGCCGGATGGCGTCGTCAACTATGTCATAAAAGACGATGTGAACTACGATTCGAACAAAGTCCGCGAACGCCTGGCGGAGGTGAATAGGATATTACGCCGGCGGACTTGTGTGAGATTGAACGAAATGAGCGAGGAGGGAGCGAGACGGCTGACAGACTATCTCGTTCTAGACACCGGCAGGGATTACGTCACGGGGCGGGTCGGCGGGAAGCAGGAGAGAGATACAAATACAACAAAAGATATGATCTTGTATAAGTTAGTAAGGGATAGCAAACATCGTGACGTCAATCCTTATCATAGGCTTGTGTTGCAAGCATTAAGAAATATCCCTGTTCGATAG

Protein sequence:

>DPOGS210662-PA
MSPFKLYENIFIETNLLSSDYDGVILILYPRDMNVALPRHVSSFIDKIFILDKSIYKTPSVWNCDYVSGGRLVLSPVGNVTPYHDVTVVREAAKRGMLRAMEAGMTKPLLIVENVVHYPDGQLVCILGALESLYVPIQIREMKPQKQVYRIGLHAEEKATESFEKIVRNAIALERARIVARDIAGGDPERMAPGRIADYVVKVFAEDPCVSIKIIDNDDIIAQKYPLLAAVSRAANNVERHKARVVLLEYNSSNPVRVTETIMLVGKGVTYDTGGADIKISGKMAGMSRDKCGAAAVAGFLKACSILKPPHLKVIGVMCLCRNSIGSDSYVSDELLTSSSGKLVRVTNTDAEGRLAMADSLYMLANMAEKELNPHLYTIATLTGHARACYGNYTAAMDNHSAKGTNHSSKLQFSGSRLGEGFEISTVRAEDLAVNDGKCSGDDLVQYDTDAKCRNHQLAAGFLIRVAGLEDKNIKYTHLDIAGAAGCPPEKPTATPVLSLCSIPLFTKEKILPLELRALPYDVDSVMHFNERDFSKNGHRTLLFKNDKTPQKRIGLSKTDLKKIELVYGPECLKRERQAKIDICRNFPAVRRKREIDFATVGSLRVNPEITPPPDTNNQENLTDELTNNLKELGIEEEVQLLIEQIHKVTATALTNAKLKHCNTTKNGSGDNKKADLKEIIYKVNEYARAVVQNALTNMTVFCDDANSMEKFQIGRCQWGPNSRCPVYFRSTMPGPVKYSTQHRPLIRQSTKHEGRGIKHQYVPWLRSQNGTEEKNLTRAKRDVNQTNSGPANETVKEVLRMATRIMTDKKVDFAPVRRSYQSVGPREKKKDRKERKERKLFRVPKTVQLSKENIEFYAERIWPDGVVNYVIKDDVNYDSNKVRERLAEVNRILRRRTCVRLNEMSEEGARRLTDYLVLDTGRDYVTGRVGGKQPRKKKLKPRHRPEEKRVTTFDEDGDKTKQNIEERVERYKEERPREKKKDRKERKERKLFRVPKTVQLSKENIEFYAERIWPDGVVNYVIKDDVNYDSNKVRERLAEVNRILRRRTCVRLNEMSEEGARRLTDYLVLDTGRDYVTGRVGGKQERDTNTTKDMILYKLVRDSKHRDVNPYHRLVLQALRNIPVR-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: