MonarchBase - Protein-coding gene

DPOGS215001
Transcript	DPOGS215001-TA	3105 bp
Protein	DPOGS215001-PA	1034 aa
Genomic position	DPSCF300256 - 3550-18492
RNAseq coverage	91x (Rank: top 63%)

Annotation
*Heliconius*	HMEL010958	3e-103	47.59%
*Bombyx*	BGIBMGA012217-TA	7e-104	65.56%
*Drosophila*	modSP-PA	6e-35	32.20%
EBI UniRef50	UniRef50_Q69BL0	7e-120	51.42%	Pattern recognition serine proteinase n=2 Tax=Obtectomera RepID=Q69BL0_MANSE
NCBI RefSeq	XP_001607879.1	2e-53	29.18%	PREDICTED: similar to ENSANGP00000018359 [Nasonia vitripennis]
NCBI nr blastp	gi\|39655053	3e-119	51.42%	pattern recognition serine proteinase precursor [Manduca sexta]
NCBI nr blastx	gi\|39655053	1e-124	53.19%	pattern recognition serine proteinase precursor [Manduca sexta]

Group
Gene Ontology	GO:0003824	2.8e-61	catalytic activity
	GO:0004252	1.2e-36	serine-type endopeptidase activity
	GO:0006508	1.2e-36	proteolysis
	GO:0005515	1.8e-10	protein binding
KEGG pathway	aga:AgaP_AGAP012372	1e-25
	K04550 (LRP1, CD91)	maps->	Malaria
			Alzheimer's disease
InterPro domain	[766-1034] IPR009003	2.8e-61	Peptidase cysteine/serine, trypsin-like
	[776-1030] IPR001254	1.2e-36	Peptidase S1/S6, chymotrypsin/Hap
	[15-61] IPR002172	1.8e-10	Low-density lipoprotein (LDL) receptor class A repeat
	[254-325] IPR016060	4e-10	Complement control module
	[262-322] IPR000436	5.4e-06	Sushi/SCR/CCP
Orthology group	MCL17556		Insect specific

Nucleotide sequence:

>DPOGS215001-TA
ATGTTTGTTACATTGTTATTTCTGTCCGTCTTTCCAAAAATCTTCACCGCTGTCGTACCTCAAGCTGTTTGTTCTCCCGACGAGTTCACGTGTTCAGACGATGTCTGTATCAGCCAGGGTCTGGTGTGTGATGGTCACAGTGACTGCTGGAACGCAGCTGATGAAATGGCTTGCAACGGACTATCGGACCCGCTCTCCGATTTGATGATCCGCAGACCTAAACGTCAGACGCAAAACTGTCGCAAGAACCAGTGGCAGTGTCGTGACGGCACCTGCATAGGGTTCGACGGTAAATGTGACGGTGTGGTCGACTGTCCCGACTTCAGCGACGAGACCTTCGCGCTGTGCAGGGACATGCAATGCCAGAGCAATTGGTTCCGCTGTACTTACGGCGCCTGCGTCGACGGCAGCGCCCCTTGTAATGGTGTGCAAGAGTGCGCTGATAACTCCGACGAGTTGCTGCCTAGGTGCCGCAATCAAACAATTGGTTCCAGGGGTAAGCACACGTGCGACAATGGTCAGGTGATATCCTCGGTGGATATATGCGATGGGAAGAAGGACTGCGCTGATGGCTCTGACGAGACCCTCGCCACCTGCGCCGGGAACAGCTGTCCGTCATACGTGTTCCAATGTGCGTATGGAGCCTGTGTGGACCAGAACGCGAAGTGCAACAAGGTGGAAGAGTGTGCTGATGGTTCTGACGAAACAGACGAGCTCTGCAACAGGCTGGCGCCGGGTCAGCCGGTGACTCCAGCCACGAGACCACCACCTCAGGGGGGTAATTGTCTGTTGCCTCCATACCCTCAGTATGGGTCGTACAAGGTCAGACAGTACCCCAACGCGGTCCCCGGCCAGAGGTATCCCAACGTGAGGCTGGACGTCACCTGTAACCCTGGCTTCCAGACTGAAAACAATAACAGCATCTTCTGCGATAACGGAGAGTGGTCAGGACCTATGCCAGCGTGTCTCCGTTTCTGCAGGCTTAACAAACACCCGAGCGTGGAGTACCGCTGTCTGTTGTCTGGCAACTCGGTGACAGGGTCCAGAGAGTGTGGCTCATTGGAGCCGTCTGGGACCGTCGTCACCCCCATCTGCCGCTCCCCCAATTACTACTCCTCGGGGGTAATGTCCAACATGCACTGCGTTGAAGGCAGTTGGGACTATATAGCTGTGTGCAAACCAGGTTTGACCAACGTTACAATAAGTATAGATAGTTTAGAAATTATCATAACATCGGATAACGCCCACGTAATAATTAACAATTACGGGAACAAGGAGGTTAAGGTCGTCAACAATATTAGTAACGCTGATAGGATTGTGTTTGAAGACAGTAGAACGACCACCAGTAGACCAACCGCTAGTAGAACGACTACCAGTGGACCGACTAGCGCTAATTATGATAATGAAATCGATGAGGGTGACTGGAGAATGGCCTCCGTTGACACAATAGGTTTCCAAGCTCAGCCCGTCCGGCCCAAAAAGTGCGGTACAATAACTCCTGAGGGTATCCAGCTGGTGATCGGCGGGCGGTCTGCCAAGCGCGGGGAACTCCCGTGGCATGCGGGGATTTACAGCAAATTATTCACACCTTACATGCAGATATGTGGCGGGTCGCTCATCAGTACAACCACTATTATATCCGCCGCACATTGTTTCTGGAGCGACACCAAGAAGCTGCTGCCCGCGTCCGAATACGCGGTGGCTGTTGGGAAGCTGTACCGACCTTACAACGAAAAACACGACGCTGACGCGGAGAAATCTGATGTACGACGAAAATATATCACAAGCAATACGCTTAACAAACACCCGAGCGTGGAGTACCGCTGTCTGTTGTCTGGCAACTCGGTGACAGGGTCCAGAGAGTGTGGCTCATTGGAGCCGTCTGGGACCGTCGTCACCCCCATCTGCCGCTCCCCCAATTACTACTCCTCGGGGGTAATGTCCAACATGCACTGCGTTGAAGGCAGTTGGGACTATATAGCTGTGTGCAAACCAGGTTTGACCAACGTTACAATAAGTATAGATAGTTTAGAAATTATCATAACATCGGATAACGCCCACGTAATAATTAACAATTACGGGAACAAGGAGGTTAAGGTCGTCAACAATATTAGTAACGCTGATAGGATTGTGTTTGAAGACAGTAGAACGACCACCAGTAGACCAACCGCTAGTAGAACGACTACCAGTGGACCGACTAGCGCTAATTATGATAACGAAATCGATGAGGGTGACTGGAGAATGGCCTCCGTTGACACAATAGGTTTCCAAGCTCAGCCCGTCCGGCCCAAAAAGTGCGGTACAATAACTCCTGAGGGTATCCAGCTGGTGATCGGCGGGCGGTCTGCCAAGCGCGGGGAACTCCCGTGGCACGCGGGGATTTACAGCAAATTATTCACACCTTACATGCAGATATGTGGCGGGTCGCTCATCAGTACAACCACTATTATATCCGCCGCACATTGTTTCTGGAGCGACACCAAGAAGCTGCTGCCCGCGTCCGAATACGCGGTGGCTGTTGGGAAGCTGTACCGACCTTACAACGAAAAACACGACGCTGACGCGGAGAAATCTGATGTGGCAGATATTATAATTCCGTCCCGCTTTCGAGGGTCTGGTGCCAACTTCCAGGATGACATCGCGCTGGTTTTGGTCGTGACGCCCTTCATATACCAGGTCTTCATTAGACCTGTCTGTCTGGACTTCGACGTCAACTTCGACAGAACCCAGCTCTCGGAAGGGAATATGGGCAAGGTAGCCGGCTGGGGTCTGACTGACAAAAACGGTAAAGCGTCCCAAGTGCTGAAGGTGGTAGATCTTCCTTACGTCAAAATTGAGGACTGCTACGCCATGTCCCCGCCGACGTTCCGCGCTTACATCACAAGTGACAAGATCTGCGCCGGTTACACTAACGGCACGACGCTCTGCCAGGGCGACAGCGGCGGCGGCCTGGCGTTCCCCGCCTACGAACTCAACACCCAGAGGTACTACCTGCGAGGCATCGTGTCCACAGCTCCCAGGAACGACGATCTTTGCAACGCCCACACCCTCACCACGTTTACGGCTGTATCGAAACACGAGCATTTCATCAAACAGTACCTCTAG

Protein sequence:

>DPOGS215001-PA
MFVTLLFLSVFPKIFTAVVPQAVCSPDEFTCSDDVCISQGLVCDGHSDCWNAADEMACNGLSDPLSDLMIRRPKRQTQNCRKNQWQCRDGTCIGFDGKCDGVVDCPDFSDETFALCRDMQCQSNWFRCTYGACVDGSAPCNGVQECADNSDELLPRCRNQTIGSRGKHTCDNGQVISSVDICDGKKDCADGSDETLATCAGNSCPSYVFQCAYGACVDQNAKCNKVEECADGSDETDELCNRLAPGQPVTPATRPPPQGGNCLLPPYPQYGSYKVRQYPNAVPGQRYPNVRLDVTCNPGFQTENNNSIFCDNGEWSGPMPACLRFCRLNKHPSVEYRCLLSGNSVTGSRECGSLEPSGTVVTPICRSPNYYSSGVMSNMHCVEGSWDYIAVCKPGLTNVTISIDSLEIIITSDNAHVIINNYGNKEVKVVNNISNADRIVFEDSRTTTSRPTASRTTTSGPTSANYDNEIDEGDWRMASVDTIGFQAQPVRPKKCGTITPEGIQLVIGGRSAKRGELPWHAGIYSKLFTPYMQICGGSLISTTTIISAAHCFWSDTKKLLPASEYAVAVGKLYRPYNEKHDADAEKSDVRRKYITSNTLNKHPSVEYRCLLSGNSVTGSRECGSLEPSGTVVTPICRSPNYYSSGVMSNMHCVEGSWDYIAVCKPGLTNVTISIDSLEIIITSDNAHVIINNYGNKEVKVVNNISNADRIVFEDSRTTTSRPTASRTTTSGPTSANYDNEIDEGDWRMASVDTIGFQAQPVRPKKCGTITPEGIQLVIGGRSAKRGELPWHAGIYSKLFTPYMQICGGSLISTTTIISAAHCFWSDTKKLLPASEYAVAVGKLYRPYNEKHDADAEKSDVADIIIPSRFRGSGANFQDDIALVLVVTPFIYQVFIRPVCLDFDVNFDRTQLSEGNMGKVAGWGLTDKNGKASQVLKVVDLPYVKIEDCYAMSPPTFRAYITSDKICAGYTNGTTLCQGDSGGGLAFPAYELNTQRYYLRGIVSTAPRNDDLCNAHTLTTFTAVSKHEHFIKQYL-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: