MonarchBase - Protein-coding gene

DPOGS213403
Transcript	DPOGS213403-TA	1662 bp
Protein	DPOGS213403-PA	553 aa
Genomic position	DPSCF300109 + 540261-544883
RNAseq coverage	4775x (Rank: top 3%)

Annotation
*Heliconius*	HMEL014498	5e-152	74.77%
*Bombyx*	BGIBMGA009139-TA	0.0	75.82%
*Drosophila*	26-29-p-PA	0.0	60.79%
EBI UniRef50	UniRef50_Q9V3U6	0.0	60.79%	26-29kD-proteinase n=45 Tax=Coelomata RepID=Q9V3U6_DROME
NCBI RefSeq	NP_001164088.1	0.0	61.94%	cathepsin L precursor [Tribolium castaneum]
NCBI nr blastp	gi\|6448469	0.0	64.42%	homologue of Sarcophaga 26,29kDa proteinase [Periplaneta americana]
NCBI nr blastx	gi\|6448469	0.0	64.66%	homologue of Sarcophaga 26,29kDa proteinase [Periplaneta americana]

Group
Gene Ontology	GO:0008234	2.6e-182	cysteine-type peptidase activity
	GO:0006508	1.5e-91	proteolysis
KEGG pathway	nve:NEMVE_v1g181181	5e-63
	K01365 (CTSL)	maps->	Lysosome
			Phagosome
			Antigen processing and presentation
InterPro domain	[213-553] IPR013128	2.6e-182	Peptidase C1A, papain
	[335-552] IPR000668	1.5e-91	Peptidase C1A, papain C-terminal
	[248-304] IPR013201	4.5e-20	Proteinase inhibitor I29, cathepsin propeptide
Orthology group	MCL14711		Insect specific

Nucleotide sequence:

>DPOGS213403-TA
ATGTTTGTCTACACTCTATTGTGTTTCTACTTGGGCTCCGTTGTAGGACTTCGCATCGATAAAGATAATCCACCGCAATGGAGCGATGTTTACACGGTCAAGGGTTTATTAAATATTCCCTACGCAGAACTTCACGAACCTTTTTATGCGTGGTTCGACAGCAAGAATGGCAAGTCTCGTATTGACTACTACGGTACTATGGTGAAGACCTACCAGCTGTCTGCCTCCGTCTACCCTCAGTATGGTACATCCATTAAGATAGCTCCGGTGACTACTGAGCATGTCCTGAACCAGGACACCTGTCTTCAGGTGAACGGTACGGAGGGAGAGAATATTAACATTCAGACCGTACTCCCTGACATGACCGACTTCAAGTTTGTAGGAACAGAGACTATGAAAGACTCCGACACCTTCAAGTGGCGCATGGTGACCTCTGTAGGGGATAAGGTCAACAAATACACGATGTGGGTCAAGTACAGGAAGAGTCTGAGAGGAGACAACATTGCTATACCAGTCAGGTACGAGATGAAGGGTTTTAACTCTCTGCTGGGCTCTCACTACGACCACTATTATTTGGATTACACGGACTTTGACAACAGCGATATCGAGCCCGACGTCTTCAAAGTAGATTCCAGCTTCAAGTGTTCGTCGTTCCCGGGCCCGGGTTTTCGCCACATGGCCACCTTCAACCCCATGAAGGAGTTCGTTCACCCCGCCAGCGATGAGCATGTCCATCACGAGTTCGACCGGTTCGTCAATAAACACAACAAGCAGTACGCCTCGGAGGTCGAGAAGACTAAGAGGATCAATATATTCAGACAGAATTTAAGATTGATTCACTCTCACAATCGCGCTCACCGCGGCTTCTCTCTGGCCGTGAATCATCTCGCAGACCACACGGACGAGGAGCTCGCCGCGCGCCGGGGCAGGAGATACACGGGACACAACGCAGGGCTGCCGTTCCCGTACGGCGAGGCGGAGCTGGCGGACATGAGCGTCAAGCTGCCGCCGGAGTTCGACTGGAGGCTGTTCGGCGCCGTGACGCCCGTCAAAGACCAGTCGGTGTGCGGGTCTTGTTGGTCGTTCGGCACGGTGGGGGCGGTGGAGGGCGCGCTGTTCCTCAGCAACGGAGGACATCTCGTGAGACTCAGCCAACAGGCGCTCGTGGACTGCTCCTGGGGTTTCGGTAACAACGGCTGTGACGGCGGCGAGGACTACCGCGCCTACCAGTGGATCATGAGACACGGCCTGCCCACGGAGGACGACTACGGAGGATACCTCGGACAGGACGGCTACTGCCACATGGAGAACGTGACGGTCGCCACCAAGATGAAGGGCTGGGTGAACGTCACCGCCAAGAACGAGAACGCGCTGAAGTTGGCGATCTTCAAACACGGCCCGGTGTCGGTGGCCATCGACGCCTCGCACAAGACCTTCAGCTTCTACTCCAACGGAGTCTACTTCGAGCCCAAATGTAAGAACAGCGTGGAGGAGCTGGACCACGCGGTGCTGGCGGTCGGGTTCGGCGTTCTGAACGGACACAAGTACTGGCTCGTCAAGAACAGCTGGTCCAACATGTGGGGGAACGACGGGTACGTGCTCATGTCGGCCAGAGACGACAACTGTGGGGTCCAGGCCGCCCCCACCTACGTCATCATATAG

Protein sequence:

>DPOGS213403-PA
MFVYTLLCFYLGSVVGLRIDKDNPPQWSDVYTVKGLLNIPYAELHEPFYAWFDSKNGKSRIDYYGTMVKTYQLSASVYPQYGTSIKIAPVTTEHVLNQDTCLQVNGTEGENINIQTVLPDMTDFKFVGTETMKDSDTFKWRMVTSVGDKVNKYTMWVKYRKSLRGDNIAIPVRYEMKGFNSLLGSHYDHYYLDYTDFDNSDIEPDVFKVDSSFKCSSFPGPGFRHMATFNPMKEFVHPASDEHVHHEFDRFVNKHNKQYASEVEKTKRINIFRQNLRLIHSHNRAHRGFSLAVNHLADHTDEELAARRGRRYTGHNAGLPFPYGEAELADMSVKLPPEFDWRLFGAVTPVKDQSVCGSCWSFGTVGAVEGALFLSNGGHLVRLSQQALVDCSWGFGNNGCDGGEDYRAYQWIMRHGLPTEDDYGGYLGQDGYCHMENVTVATKMKGWVNVTAKNENALKLAIFKHGPVSVAIDASHKTFSFYSNGVYFEPKCKNSVEELDHAVLAVGFGVLNGHKYWLVKNSWSNMWGNDGYVLMSARDDNCGVQAAPTYVII-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: