MonarchBase - Protein-coding gene

DPOGS206224
Transcript	DPOGS206224-TA	3180 bp
Protein	DPOGS206224-PA	1059 aa
Genomic position	DPSCF300334 - 134702-140422
RNAseq coverage	32x (Rank: top 75%)

Annotation
*Heliconius*	HMEL011231	0.0	69.60%
*Bombyx*	BGIBMGA009743-TA	3e-89	70.23%
*Drosophila*	CG8213-PC	3e-158	56.02%
EBI UniRef50	UniRef50_F4WIT9	3e-174	38.10%	Serine proteinase stubble n=1 Tax=Acromyrmex echinatior RepID=F4WIT9_ACREC
NCBI RefSeq	XP_002048702.1	3e-163	59.80%	GJ21187 [Drosophila virilis]
NCBI nr blastp	gi\|332025727	1e-173	38.10%	Serine proteinase stubble [Acromyrmex echinatior]
NCBI nr blastx	gi\|91087681	0.0	41.05%	PREDICTED: similar to CG8213 CG8213-PA [Tribolium castaneum]

Group
Gene Ontology	GO:0003824	2.3e-87	catalytic activity
	GO:0004252	4.1e-79	serine-type endopeptidase activity
	GO:0006508	4.1e-79	proteolysis
KEGG pathway
InterPro domain	[802-1057] IPR009003	2.3e-87	Peptidase cysteine/serine, trypsin-like
	[812-1052] IPR001254	4.1e-79	Peptidase S1/S6, chymotrypsin/Hap
	[845-860] IPR001314	2e-11	Peptidase S1A, chymotrypsin-type
Orthology group	MCL25643		Lepidoptera specific

Nucleotide sequence:

>DPOGS206224-TA
ATGACATCACTCTTAGTCATTTCACTGGAATTCCAAGAAGACAGAAAACTGTTTGGCGGTTACAAAATAACACCGTCGTATTGTAAGGCAAGCAGAGCGGCGAGGTACAACCGGGGTAACACTATATGCATGTTCAACCACGAGTGTGTTCGAAGAGGTGGTGAAGTGGTCGGTTCCTGTATGGACGGCTTCCTGTTTGGGGCGTGCTGCCAGTTACCTTCCAGCAGTCAGTCACATATACCAAAAGGACCCGGTGTTGTTATGACGAGCTACATAGACTATCCGGATGCAGAAGCAGAAACTGACGATTACGACGCTGAACATCTAAGCGCTTACCATAACAGCTTCAAACCTGTAGTGACGCCGGGATATAAGCCTAGTAGTAGCGTTTCGACGTCCACTGTGAGGTCTGAGTCAGACGCGAGCACGGAGATTCACCAAGCTGAAATAATATCCGAAGGTCTCACCCAAATCACAAACACCTTACTAAGTACGCCGCCCAAGGAGGACAGTTTCATATACATAAAGCCTCAAGGAGTCTACACACACAGCACGATCAGTCACCCGGTCGCTGATACTATTCTGTTCCACAAGAACGGTTCGATGGTTGACGACATAGCGAGACCATCAGACTTCAATGTACAAATATCTTCAATGCAAACCAAACCCACCGTGTCGCCGAGCACGAGTTCGGTCTCGTCTCCCGGTATAATAGTTTCGTCGACGCACAGACCTATATTCAAACCGAAGCCGAATAACAAAGTATCGACAAAACGACCGACCACCGACAACTATGTCATGGTTCAGACGGTCACCAAAGACGCTCAGAAGGTGCCGGAGCTGTCTTCGATTAACAGCATCATACAGATGCTCAATGACAGTACTCCGAGTCTTAGTGATGATGTAAGTTCACCCTCTTCGATCGATGTCATGGAAACTAAATCCTCGCCGAGCCCTTCCACAGTCACTCCAGTGTTGTACAGCAGCAGTTACCCTATTTTCACAACCGGACACTACGTCACTTTAAAACCATCTTCATTTATAAGTAGCGTCTCACCGATAGCTGGTACAAAGAAACCGTTAACAACTAAAAAACCGTACATTACAATAAACACCACACCGAACAGTGCGGGAGGAAAGCCGTCGAAGCCTTATAATTCTTCTCCCAGACCAAACCAATCAACCAGTCAGGCTATCGAAGCTTTCAATAACTATCCAACCGATCCGCAAGACTTTGGACAATCAATCACCACATTCAGCTATGTGAGTTCAACGACAACTTTGAAACCAACGTCCACGACCAGAAAACCGCCTTCGACGAGTTACGTAACCGGATCGAAACCCTTAAGAAGACCAGCTACTCCGCCGACGAGTTTCGTATCTTCCTATGAAGCTGCATCAGACACTTTCTCGAGTGTGACCCCAACCGTTATAGTGCTAAATGGACTCAGCACAAAACCAGAATCCTCATCAGAGGATACGGAATTTGTTGAAATATCACAGGAGCCCTTCAAGAAACCAGTCAGCCAAATTACTGTAAACAACCATATAGAATCTACAAACAATATCTACATGGGTAAACCGCCGCAGACGTACGATCAACCGAAGCCTTCGAGACCATCTTCTCCTACCGTTGTCATAACCCCTAAACCCTCACCAACCACGCCCTATCCCATCAAAGGATCAACTCGTCCCGTTCCAATCACACCGAACGTGCCTCTCTACGATTCCTACCCAGACTTCTCACCGACAACGACCTCTAAAACAGAAATGCAGACCTCTCCCGATGACCTCATAAACTTCCCTCCCGTCAGGAATCCTCTCCTCAACGCGACGGGATCCAACCCTGCTCTGTATAACACGAGCGTAGCCATTGACAACGACTTAGATATTCTACACGACGTAGACTTCTCGACGCCGACCTGGCAGGACGACGAGAAGCTGGGCGAGAAAATGAACTTGTTCGTTAACAAGATCGTCGGCAGCCTTCAGGGCTCGTTCCAGGATCTTCACGACATAGTTGTGTTGGATAAGAAACCCAGTTCCACACTGAACCGTGACAAAACGACAACCGCCAAGCCGCCGAAGAAAACCGTGCCAACAAGAAAACCTGTTACCACCAAGAAACCTTTGAGATTGTCCACAACGTCCAAGAAGCCTCCGGTGAAGACGACGAAGAAGCCGCTCAAGACCACCACCGTCCCCAAGAAACCCACCACGATCACCACTCAGACGCCCACCACCACCGTTATAACCACGACCACAACCAAAAAGCCGGTGACCACCACCAAGAAACCCATCAAGAGAGTGACCACCAGCCTCGTCACCACCGTCACAGAACAGTACGATGACGTCACCACCGAGGGATACTCAGAGCCTATCGATTACAACGACAAGAATTTGTGCGGCGTGCGGCCGCTGATGAAGTCCGGTCGCATCGTGGGCGGCAAGAACGCCAGGTTCGGGGAGTGGCCCTGGCAGGTGCTGGTGCGCGAGTCCACGTGGCTGGGCCTGTTCACCAAGAACAAGTGTGGCGGAGTGCTCATCACCAACAGATTTGTGACCACGGCGGCGCATTGTCAACCCGGGTTCCTGGCGTCGCTGGTGGCGGTGTTCGGCGAGAACGACATCTCCAGCGACTACGAGCCCAAGAGACCCGTCACCAAGAACGTGAGGAGAGTCATCGTCCACCGCCAGTACGACGCCGCCACCTTCGAGAACGACCTGGCGCTGCTGGAGCTCGACTCGCCCGTACAGTTCGCCGCGCATATAGTTCCTATCTGCATGCCGCCTGATGACGCGGACTACACGGGCCGCGTGGCGACCGTCACCGGCTGGGGCAGGCTCCGGTACGGAGGCGGAGTCCCCGCGGTGCTGCAGGAGGTTCAGGTGCCGGTCATAGAGAACAGCGCGTGTCAGGAGATGTTCCACACGGCCGGTCACGCCAAGAAGATATTGAACTCGTTCATATGCGCTGGATACGCCAACGGGCAGAAGGACTCCTGTGAGGCGAGAGGTGACAGCGGCGGGCCGCTGGTGCTGCAGCGCGACGACGGCAGGTGGCAGCTGGTGGGGACCGTGTCCCACGGGATAAAGTGCGCCGCGCCCTACCTGCCCGGCGTCTACATGAGGACGACGTACTACAAACCCTGGCTGAGATCGATCACCGGAGTTCGTTGA

Protein sequence:

>DPOGS206224-PA
MTSLLVISLEFQEDRKLFGGYKITPSYCKASRAARYNRGNTICMFNHECVRRGGEVVGSCMDGFLFGACCQLPSSSQSHIPKGPGVVMTSYIDYPDAEAETDDYDAEHLSAYHNSFKPVVTPGYKPSSSVSTSTVRSESDASTEIHQAEIISEGLTQITNTLLSTPPKEDSFIYIKPQGVYTHSTISHPVADTILFHKNGSMVDDIARPSDFNVQISSMQTKPTVSPSTSSVSSPGIIVSSTHRPIFKPKPNNKVSTKRPTTDNYVMVQTVTKDAQKVPELSSINSIIQMLNDSTPSLSDDVSSPSSIDVMETKSSPSPSTVTPVLYSSSYPIFTTGHYVTLKPSSFISSVSPIAGTKKPLTTKKPYITINTTPNSAGGKPSKPYNSSPRPNQSTSQAIEAFNNYPTDPQDFGQSITTFSYVSSTTTLKPTSTTRKPPSTSYVTGSKPLRRPATPPTSFVSSYEAASDTFSSVTPTVIVLNGLSTKPESSSEDTEFVEISQEPFKKPVSQITVNNHIESTNNIYMGKPPQTYDQPKPSRPSSPTVVITPKPSPTTPYPIKGSTRPVPITPNVPLYDSYPDFSPTTTSKTEMQTSPDDLINFPPVRNPLLNATGSNPALYNTSVAIDNDLDILHDVDFSTPTWQDDEKLGEKMNLFVNKIVGSLQGSFQDLHDIVVLDKKPSSTLNRDKTTTAKPPKKTVPTRKPVTTKKPLRLSTTSKKPPVKTTKKPLKTTTVPKKPTTITTQTPTTTVITTTTTKKPVTTTKKPIKRVTTSLVTTVTEQYDDVTTEGYSEPIDYNDKNLCGVRPLMKSGRIVGGKNARFGEWPWQVLVRESTWLGLFTKNKCGGVLITNRFVTTAAHCQPGFLASLVAVFGENDISSDYEPKRPVTKNVRRVIVHRQYDAATFENDLALLELDSPVQFAAHIVPICMPPDDADYTGRVATVTGWGRLRYGGGVPAVLQEVQVPVIENSACQEMFHTAGHAKKILNSFICAGYANGQKDSCEARGDSGGPLVLQRDDGRWQLVGTVSHGIKCAAPYLPGVYMRTTYYKPWLRSITGVR-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: