MonarchBase - Protein-coding gene

DPOGS204835
Transcript	DPOGS204835-TA	3231 bp
Protein	DPOGS204835-PA	1076 aa
Genomic position	DPSCF300227 - 281427-285251
RNAseq coverage	248x (Rank: top 42%)

Annotation
*Heliconius*	HMEL013904	78.12%
*Bombyx*	BGIBMGA011732-TA	70.34%
*Drosophila*	CG4998-PB	49.46%
EBI UniRef50	UniRef50_Q7QIM7	44.11%	AGAP006954-PA n=1 Tax=Anopheles gambiae RepID=Q7QIM7_ANOGA
NCBI RefSeq	XP_308802.2	51.46%	CLIP-domain serine protease subfamily A (AGAP006954-PA) [Anopheles gambiae str. PEST]
NCBI nr blastp	gi\|347965251	44.11%	AGAP006954-PA [Anopheles gambiae str. PEST]
NCBI nr blastx	gi\|189242269	46.32%	PREDICTED: similar to CLIP-domain serine protease subfamily A (AGAP006954-PA) [Tribolium castaneum]

Group
Gene Ontology	GO:0003824	1.5e-87	catalytic activity
	GO:0004252	9.5e-80	serine-type endopeptidase activity
	GO:0006508	9.5e-80	proteolysis
KEGG pathway	cfa:475624	2e-41
	K01324 (KLKB1)	maps->	Complement and coagulation cascades
InterPro domain	[810-1071] IPR009003	1.5e-87	Peptidase cysteine/serine, trypsin-like
	[826-1066] IPR001254	9.5e-80	Peptidase S1/S6, chymotrypsin/Hap
	[856-871] IPR001314	6.6e-14	Peptidase S1A, chymotrypsin-type
Orthology group	MCL14055		Single-copy universal gene

Nucleotide sequence:

>DPOGS204835-TA
ATGCGCTGGTTTATATGTTTCTGTGTGCTGCTATTATCTATAGCGAGTACATCAGCAGACTGGTCATGGGGTGGAGACGATTCTGATAAAAAAGATGAACCATCCAATGCTAAACCAACTGATCTATTGCAAGGCGAGGAGATAGATGTCGCACAAGCCAAAAACTTCAATTCGAATGGAACTATTCTTGATGATATCGTAGATGAATTAGTCAGCAATAAGCAAGGCAGAAGTTTGAGCGGATTTGACGATGTGTACAGTGACCCCACCATCAAGGAAGCGTTAGACTCGGGTGACGATAGCGAAGCAAGAAATTTGATAAAGGGCCGACTGTGTACCTTGGGATTAATACAATGCGAAGATGATGACACTCAAGAAAAGAGATTTTTATCACCAGACGAACTCATTTATGCTCAACCCGTTGACATTAAGCCTATTGGCAAACCTATCGCTTCCATACCTGTCCGTGGACCTCCAAGAGCTTATGGACCGCCAAAACCTATGTTGTACCCCCCACGCCCCCCGAAGATTCCATTAAAGAGGCCTGGATATGGAAATGTACGCCCTGGATTTTCGGAGAAGTATGGAGTAGCCGGTAATAACTATCAATTTTCACAAAGCAGCGGCTCGTTTAATGGATATGAAGCTAATTACGTAACAAAACCACCAAGTTTTGCAAACAATGAACCTTACAATTTTGAACATTCAAAACCAACCTACAACAAAATACCCTCAGGAAGCAACAATATTAAATCTGAATCTATTGTACAGCAACACGTTCATCACCACTATGTTCACGATGATTCTAATAAAGAACCTAAGGTTATAATCAAATCTGTGGCTATACCAGTTGGATCTGTAGGCCATTTAGCATCTCAAGTAAACACTCAATCATCATCCAACATCCTAACAGCATCTGGAGGAGATTTTAACACATTTAATTCAGGAGGATTCAAACCTATGACAGGCGGTTTTTCTCCCAGTAGCAAACCTGTCTACGAAACTGATACTATTTATGGATCTCAATACAGCCACAATAATTATAACAAGGGCAGTTCTAACGTTTTCAATCAAGGCTTACCAAATCAATTCGGTAGCAATACTTTTGAAGAGCAAAAATATGGCAATTCGCTAGGTTCTTATGCATCTCAGAATGAGTTTTATAAAAAAGAACTAAATGTAGGTTCCACCGGCAACTTATACACCCAAGGTCCAGCAACATTTTCACAAAATAATTTGTACCAACAAAATCAACATGAAGCCAAAGCTCAAGGTTTTGAATGTGTATGTGTAAAATACGACCAATGTCCAAGCCAAGAAATTATTGGGCGCAGAGACGACTTGTATTTACCAATTGATCCGCGTAACAAAGGTTCCGAAATATTAGCATTAACTGAAGAACAACTAGATGGAGTCAATAAAACTTCTGAGGAGATCAATGTCAGTCAAAATTCCACTGAGGCAAAGAAAATTAGTAAACGAGACGTTGATGAGGCCAAAACTAAAGATGCTGCAAAGGAAATTGAACCGCGCCTTCTGGGGTTAGCTGGATATGGAGGCAATGGCGGTAATAGCGACAAAAAAGTGCAGCCCACGTTTGGTGTTTCTTTTGGGTTGCCCCAGCCCTCCCATAGTTATCCCATTAATCCTTTCAACTCAAATCCTTTACACAATCCATACGGGCCCGCTCTAAATGGAGGCGGTCTTAATTTAGGCTTGGTCTCAGTTAATCCACTTTTAGCTGTTCAAGTGACGAAAAATGATTACGGGGAAAAGGTAGTAAAACCTTTTGTAAATTTGCATGTGACTCCAAATGAACACGTAGTTAATAAACTGGGTCATATATTCCACGAAAAAAAGCAATACCTTTTGAATAAACATGAACACTACCATCATTATAACCCCCATCCTTACCAGCCTTATCCTCATAGGCCATATGTCCCGCATCCTGTAGGTTATTCAGACCATTATGGTTTACATAGGCCACATTCTTACTCCCCACATTTTCCGCATTACGATGCTGGTCACTATCGCGTTAATCCATACAATGCACCTTCTGATAATGATGACTATTATGATGATGATGATGATAACAGTTACAACGCTGCTATAAGCTATAATGATCAAAATTACAATTTTGCCAAATCTGCTCAAACTAAAGAGAGCAATGGTCAAAATGATAATTATGCAAATAGATATTCATATTCGCGTTCCCTAACTATTCCTTCACAATCTGGGGCAAACCAGAAAAGCCAGACTGTAAGATTCCCAACAAACAGAAGGAAAAGGGAAGCCTCTCTAGCATCTGAAAAGATTAGTATACAAGAGCGTCAAGGTTATTTCGGTGGACCATCAATTCCCCAATGTAATCAAAATCAAGTTTGTTGCCGCCGGCCACTTAGACCGCAGGCATCAAATCGCGGTCAGTGTGGTATCAGACATTCCCAGGGAATCAATGGTAGAATAAAGACTCCATCATACATCGACGGGGATAGTGAATTCGGAGAGTATCCTTGGCAGGCTGCTATTTTGAAGAAGGACCCTAAAGAATCAGTTTACGTTTGTGGAGGCACACTTATTGATGGACTTCATATTATGACGGCGGCTCATTGCATCAAATCATACAAAGGATTCGAGCTGAGAGTTCGTCTAGGTGAATGGGACGTTAACCACGATGTTGAATTTTACCCATACATTGAACGAGATGTTATATCTGTTCATGTACACCCACAATACTACGCCGGCACATTAGACAACGACCTTGCTATTTTAAAATTAGAGCATCCAGTTGATTGGACCAAATATCCTCATATAAGTCCTGCATGTCTCCCTGATAAATACACCGATTACGCTGGACAAAGATGTTGGACAACTGGTTGGGGCAAGGATGCGTTTGGATCTAACGGAAAGTACCAAAATATTCTTAAGGAAGTAGATGTACCAATTCTACCCCATGGTCAATGCCAACAACAATTAAGACAAACTCGTTTGGGCTACAACTATGAGTTAAATCCTGGTTTTGTCTGTGCCGGTGGCGAAGATGGCAAAGATGCATGCAAAGGGGACGGTGGTGGCCCATTGGTTTGCGAGCGCAGCGGAACCTGGCAACTTGTAGGTGTTGTGTCTTGGGGAATCGGATGCGGTCAGGCTGGTGTACCAGGAGTTTACGTAAAAGTAGCTCATTATTTGGACTGGATCTCTCAAGTGACTGGGAAATTTTCCCAATTCTAA

Protein sequence:

>DPOGS204835-PA
MRWFICFCVLLLSIASTSADWSWGGDDSDKKDEPSNAKPTDLLQGEEIDVAQAKNFNSNGTILDDIVDELVSNKQGRSLSGFDDVYSDPTIKEALDSGDDSEARNLIKGRLCTLGLIQCEDDDTQEKRFLSPDELIYAQPVDIKPIGKPIASIPVRGPPRAYGPPKPMLYPPRPPKIPLKRPGYGNVRPGFSEKYGVAGNNYQFSQSSGSFNGYEANYVTKPPSFANNEPYNFEHSKPTYNKIPSGSNNIKSESIVQQHVHHHYVHDDSNKEPKVIIKSVAIPVGSVGHLASQVNTQSSSNILTASGGDFNTFNSGGFKPMTGGFSPSSKPVYETDTIYGSQYSHNNYNKGSSNVFNQGLPNQFGSNTFEEQKYGNSLGSYASQNEFYKKELNVGSTGNLYTQGPATFSQNNLYQQNQHEAKAQGFECVCVKYDQCPSQEIIGRRDDLYLPIDPRNKGSEILALTEEQLDGVNKTSEEINVSQNSTEAKKISKRDVDEAKTKDAAKEIEPRLLGLAGYGGNGGNSDKKVQPTFGVSFGLPQPSHSYPINPFNSNPLHNPYGPALNGGGLNLGLVSVNPLLAVQVTKNDYGEKVVKPFVNLHVTPNEHVVNKLGHIFHEKKQYLLNKHEHYHHYNPHPYQPYPHRPYVPHPVGYSDHYGLHRPHSYSPHFPHYDAGHYRVNPYNAPSDNDDYYDDDDDNSYNAAISYNDQNYNFAKSAQTKESNGQNDNYANRYSYSRSLTIPSQSGANQKSQTVRFPTNRRKREASLASEKISIQERQGYFGGPSIPQCNQNQVCCRRPLRPQASNRGQCGIRHSQGINGRIKTPSYIDGDSEFGEYPWQAAILKKDPKESVYVCGGTLIDGLHIMTAAHCIKSYKGFELRVRLGEWDVNHDVEFYPYIERDVISVHVHPQYYAGTLDNDLAILKLEHPVDWTKYPHISPACLPDKYTDYAGQRCWTTGWGKDAFGSNGKYQNILKEVDVPILPHGQCQQQLRQTRLGYNYELNPGFVCAGGEDGKDACKGDGGGPLVCERSGTWQLVGVVSWGIGCGQAGVPGVYVKVAHYLDWISQVTGKFSQF-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: