MonarchBase - Protein-coding gene

DPOGS210504
Transcript	DPOGS210504-TA	2652 bp
Protein	DPOGS210504-PA	883 aa
Genomic position	DPSCF300186 - 17942-23083
RNAseq coverage	853x (Rank: top 15%)

Annotation
*Heliconius*	HMEL006896	3e-24	34.50%
*Bombyx*	BGIBMGA012590-TA	3e-104	59.32%
*Drosophila*	CG9416-PA	5e-101	30.76%
EBI UniRef50	UniRef50_F4W998	5e-164	37.66%	Endoplasmic reticulum metallopeptidase 1 n=6 Tax=Endopterygota RepID=F4W998_ACREC
NCBI RefSeq	XP_001606695.1	7e-161	38.91%	PREDICTED: similar to FXNA [Nasonia vitripennis]
NCBI nr blastp	gi\|332029297	2e-163	37.66%	Endoplasmic reticulum metallopeptidase 1 [Acromyrmex echinatior]
NCBI nr blastx	gi\|350407744	7e-155	37.56%	PREDICTED: endoplasmic reticulum metallopeptidase 1-like [Bombus impatiens]

Group
Gene Ontology	GO:0008233	7.9e-35	peptidase activity
	GO:0006508	7.9e-35	proteolysis
KEGG pathway	ani:AN4200.2	9e-24
	K03360 (GRR1)	maps->	Ubiquitin mediated proteolysis
			Cell cycle - yeast
InterPro domain	[170-339] IPR007484	7.9e-35	Peptidase M28
Orthology group	MCL10086		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS210504-TA
ATGAATAAGGATACGGAGCCTCGCGGGGCGCCGGCCGGCGAGGAGGAGCTGCTACTGAAGGAGAACGTACTGGAGAGAGGCGTAGTGCCCGTTTGGGTCGTGTGCATGGCGGCGTGCCTCACCGCCGGGACTCTGTTGGCCGCGGGGGCCGTCGACCGTCGTCTGCCGGAGCCTTTGCCGCGAGATGCGCCGGCGCAGCTGTTCAGCGCCGAGAGGGCCTACGACCACCTCATTAACCTGACGTCCATCGGCCCTCGGGTGGCGGGCAGCTATGAGAACGAGGTATTGGCCGTCCGGGAGCTGGTGTCGGCAGCCCGCTCTGTGGCCGCCGCCGCCAGCCCACACAACCTCGTTGACTACGACGTGTTCACCGCCAGCGGTGCCTTCTCGCTCACCTTCCTCGACGGCATGACTAACATCTATCGAGACGTTCAGAGCGTCGTGATTCGGATCAGAGGCGCGGGGGAGGCGAGCGGCCCGGGGAGGGGGTCTGCGCGAGCACCCGCCGCTCTACTCATCAACTGCCACTTCGACACCGTGCCTGACAGTCCTGGGGCCAGCGACGACGGCGCGGGCTGTGCAGTGGCGCTGGAGACGGCCCGGGCCCTCGCCGCCGCGCCGAGGCCGCTGAGACATCGCGTGCTGGTGTTGTTGAATGGTGCGGAGGAGAACATCCTGCAAGCGAGCCACGCCTTCGTCACCAGCCACGCCTGGGCGCGAGGAGCGCGGGCCTTCATCAACATCGAGGCGTGTGGCGCCGGGGGCCGCGAGGTGCTGTTTCAGGCCGGCCCGCACGACCCCTGGATAGTGGAGGTGTACGCGGGGGCGGTGCCGCACCCCTTCGCCTCTTCGCTGGCGCAGGAGCTGTTCGAGAGCGGCCTCATCCCCGCAGACACCGACTTCCGTATATTCCGAGATTTCGGGAACATGTCCGGCGTGGATCTCGCGTGGAGCAGCAACGGGTACGTGTACCACACGCGGCTGGACACGGCCGACCGTGTGCCGCTTCCCGCCCTCCAGCGCACTGGAGACAACGTGCTCGCCCTCGCTCACGGGTTGCTGAGCAGCGAGCGACTGGAGCAAGAGACGGAGCGTGAACGCCAGCCCGTGTTCTTCGACGTGGTGGGTGTGGTGGTGGTGGCGGCCCGCGCCACGCTCGCCGCATCCGTCGCCGTGGCCGTGTTGCTGCTCACCGTGCTGGCATTAGTGCTATCGGCCAGGGACGCCGCCAGGGAACTGTACATGCCGGCGCGCTTGTGGCTCAAGTTGGTGTTCTTGATGGCGTGGCGGGCCGTTCTGTGTACGGCGGCCGGGGTCGCCGCGTCGGCGGGGGTGGCTCTGGTGCTGCACGTGCTCGGCGCGAGGATGTCTTTTTACGCACAGCCGGCGCTACTTGTGCCGCTGTATGCTTTGCCCGCGCTGGCGGGGTCGTGGGCGGATGCTCGTCTGGCCGGTGGATCGCGCCGCGGGCCGGCGGGGTTGCTCCGTGGCTGGGTGGCGTGGCGCGCCTGGAGAGACGCGCTGGCGCTGCTGACCGCGTCGTCGCTGGCGCTGCTGGGAGCGCTCGGCCTGCGCTCCGCCTTCTTGCCGGCTCTCTGGACTCTCCCCGCGCTCTCGTCGCTACCGTTCCGTCTGGCAGCGGGCACGTCTCCACCGCCGCAGACCGCCGCCGCACTCCACGCCGCGGGCTCGACCCTGCCGGCCCTGCAGACGGCGTATCTGGCGCTCAACTCCATCAACATGTTCGTGCCCATCATGGGTCGCGCCGGCACGGCCTTCTTGCCGGCAGACGTGATGATGTCCGTGGTGGTGTCGTCCCTGACCCTGCTCACCTTCAGTTGGATGCTGCCACTCGTGGTCGCCGCGAAGAGACTCAACGTTCTGCTGTACGCGGTGCTGGCCGCCAGCTGTGTGGGCGCCTTGTACTCGCTCAGTCCCTTGGGCGCGCCGTACAGTGAGACGCGCCCCCAGCGTCTGATGGTGTTCCACACTCGTCGCTCGTACACTCCTCTGGGCGCCGGCGACCCCGTCTCCCTGGAGGACTTCTTCTGGATGCCGGAGTTGGACGTCAACACGCCACACTCAATGGACAAATACATCGAGGGCGTGTCCGCGGCGCGCGTCACGGCGGCCGAGGAGTGTTCGCGCTGGGCCTACTGCGGCGCACCTTACTTTCTGCCCGTGCTGTCGCGCGTATCGCGAGGATACTCCATGCCGGCGCCGGAGCCCCCCCTGCCGCGGCTGCGGGTGGCTTCGCGCCTGCTGGTCGCGGACGGTGACCCCGGCAGCCGCACGTTGCAGCTGGACCTGTCGGGCACACAACACGCCGTGCTGGTGTTGGCACCGGCGGAGGGGGTGAGGGTCACGCGCTGCTCCGAACTGAACGGGCCGCCGCGGGAGGGACCGGCGTGGGGCGCGCGACGCACCTACTTCGTGACCCTGCACCATGCGCGCGACCCGCACACCTGGCGCCTGGAGTGCGTCCTCGAGGGCCGGCCGGTGGCGGAGGGCTGGGTGCAGGTGTCTGCGGCGGGTCACGCCATGTTCGGTCCGCGGCGCCTGTCGGACTCCCACTCCCGGCTCCTGCAGGCCGCGCCGCCGCACGTGGCGGTCACCGGCTGGGGAGTCGACCTCCACATCCTGGACCTGTAG

Protein sequence:

>DPOGS210504-PA
MNKDTEPRGAPAGEEELLLKENVLERGVVPVWVVCMAACLTAGTLLAAGAVDRRLPEPLPRDAPAQLFSAERAYDHLINLTSIGPRVAGSYENEVLAVRELVSAARSVAAAASPHNLVDYDVFTASGAFSLTFLDGMTNIYRDVQSVVIRIRGAGEASGPGRGSARAPAALLINCHFDTVPDSPGASDDGAGCAVALETARALAAAPRPLRHRVLVLLNGAEENILQASHAFVTSHAWARGARAFINIEACGAGGREVLFQAGPHDPWIVEVYAGAVPHPFASSLAQELFESGLIPADTDFRIFRDFGNMSGVDLAWSSNGYVYHTRLDTADRVPLPALQRTGDNVLALAHGLLSSERLEQETERERQPVFFDVVGVVVVAARATLAASVAVAVLLLTVLALVLSARDAARELYMPARLWLKLVFLMAWRAVLCTAAGVAASAGVALVLHVLGARMSFYAQPALLVPLYALPALAGSWADARLAGGSRRGPAGLLRGWVAWRAWRDALALLTASSLALLGALGLRSAFLPALWTLPALSSLPFRLAAGTSPPPQTAAALHAAGSTLPALQTAYLALNSINMFVPIMGRAGTAFLPADVMMSVVVSSLTLLTFSWMLPLVVAAKRLNVLLYAVLAASCVGALYSLSPLGAPYSETRPQRLMVFHTRRSYTPLGAGDPVSLEDFFWMPELDVNTPHSMDKYIEGVSAARVTAAEECSRWAYCGAPYFLPVLSRVSRGYSMPAPEPPLPRLRVASRLLVADGDPGSRTLQLDLSGTQHAVLVLAPAEGVRVTRCSELNGPPREGPAWGARRTYFVTLHHARDPHTWRLECVLEGRPVAEGWVQVSAAGHAMFGPRRLSDSHSRLLQAAPPHVAVTGWGVDLHILDL-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: