MonarchBase - Protein-coding gene

DPOGS214588
Transcript	DPOGS214588-TA	4323 bp
Protein	DPOGS214588-PA	1440 aa
Genomic position	DPSCF300050 - 363687-373761
RNAseq coverage	411x (Rank: top 29%)

Annotation
*Heliconius*	HMEL004036	63.07%
*Bombyx*	BGIBMGA005119-TA	72.62%
*Drosophila*	CG5639-PA	35.69%
EBI UniRef50	UniRef50_D6WS96	44.00%	Putative uncharacterized protein n=1 Tax=Tribolium castaneum RepID=D6WS96_TRICA
NCBI RefSeq	XP_967522.1	44.00%	PREDICTED: similar to CG5639 CG5639-PA [Tribolium castaneum]
NCBI nr blastp	gi\|91087471	44.00%	PREDICTED: similar to CG5639 CG5639-PA [Tribolium castaneum]
NCBI nr blastx	gi\|91087471	44.24%	PREDICTED: similar to CG5639 CG5639-PA [Tribolium castaneum]

Group
Gene Ontology	GO:0004867	4e-21	serine-type endopeptidase inhibitor activity
	GO:0005576	2.7e-08	extracellular region
	GO:0030414	2.7e-08	peptidase inhibitor activity
	GO:0004857	3.2e-07	enzyme inhibitor activity
KEGG pathway
InterPro domain	[740-848] IPR000716	3.5e-21	Thyroglobulin type-1
	[961-1017] IPR002223	4e-21	Proteinase inhibitor I2, Kunitz metazoa
	[728-770] IPR008197	2.7e-08	Whey acidic protein, 4-disulphide core
	[139-183] IPR011061	3.2e-07	Proteinase inhibitor I14/I15, hirudin/antistatin
	[132-182] IPR018112	1.1e-06	Proteinase inhibitor I15, antistasin
	[153-178] IPR004094	1.6e-06	Proteinase inhibitor I15, antistasin-like
Orthology group	MCL13520		Insect specific

Nucleotide sequence:

>DPOGS214588-TA
ATGGCGCCGAAAGCCGTTAGGGTGGCGTTGTTCTGCGCTTGCCTAGTCATACTACAAGTGAGCGCCGAATTGAAGGGCCGTTGTCCGGCTGACGAGGAAACCTGTCCTCCTCGTGCGACGCCATGTAATGACGACAACGACTGCGGGCATCAGATCTGTTGCAACACCTCCTGTGGGCGATCCTGTGTGGAGCCGCTCTACACCGGATGTGAGAACATAAAGCTGTCTTCGGAGCGAATATCCCGTGCTCTGGCTGCTGAGAACACACGCAGCGGGCGAGGTGTGATGAGGTCGCTGCGATCTCCTCGCTGCAAGGTCTCTGATGGAGAGTTCGAAGAAATACAATGTGATAACGAGATCATAAGCTCGTGTTGGTGCGTGGACGCCGCAGGCTTTGAGGTGCCGGGTACCCGCGCTCCCGCAGCGGGTTTAGTGAACTGTTCACGAACAGCGCCCTGCGCGGCGCACACTTGCCGCATGCTGTGTCCACTCGGCTTCGAACTGGATCCTAACGGCTGTCCGCTCTGCAAGTGTCGCGACCCTTGCTCCACCATCACCTGTCCCAACCAGCTATCCTGTCAGTTGGAAGAGATGCCGTGCTTACGTCCACCCTGTCCCCCAGTACCCACTTGCAAAAGGGGTCGCAGCCTCCAAAACATATGTCCGGTAGGCGAGCCACTTTTCATATCGGAAACGAGACGTCCATTCCTGTGCGGTACGGATCCAGGGAAACCGAACTGCCCGCCTCTGTATAAATGCCTCGTCGAATCTGGCAACGACTACGGCGTCTGCTGTCCAGCGTCACTTGAACTACAAAAGGCCGGTACCTGTCCCGCTCCGAAGTCTTCTGGAATGGACTGTGGGACTCCCTGCGTTCATGACCTCGAATGTCCGTCAATGCAGAAATGCTGCGACGGTGCTGAATGTGGGAGACATTGCGTTCTGCCCCACAACGTCACTATCTGCACTCAGCAGAAAATGCTCGCTGAATTACTGGTTGTTAGCGAGAAAGAAGGTAGAGGATACGTGCCGCAGTGCACGTCTGACGGGTCCTTCCTGTCAAGACAGTGCTCGCGGAACGGGCTCGTGTGTTGGTGTGTAGACACAGACGGCAATAAACTCCGAGGCTCTATGGGACCGTCGGAAACCGTGAAGTGTTCTGCCAAACCCCATCCAGCTCGTACTGGTGCTAGAAGTATTAGTTCCTGTGCGAGGGCCCTCTGCGCCGGGGTCTGCGAGTACGGCTACAAGACCGGCGGCGACGGGTGTCCGAGCTGCGAGTGTGACGATCCCTGTGCTGGGTTCCCCTGCGCAGAGGGAGAGGAGTGCGTGCGAGTCCGGGACGCTGATTGCTCTGGAGAGCTTTGCACTGGTTATCCTGTCTGCCGTCCTAAAATCTCGTATGAGAATCCGTGCTCTGTGGGTGTACCGGCGACGGACGAGCGCGGGGCGGTGTTAACTTGCAGGGAAGGGGGTGAGTGCGGGGAGGGACACAGCTGCACCCGCGGGGGGAGACACGGGCCAGCCGTCTGCTGTCCGCAACCGGATACTGACACGGATAATACCACTGAACCGGAAATACTCGAGATCAACTTCGAAGCGTGTGGTCCGGAGGCTGAAGCGCTCTGCGGAGTGAACTCCACATCCAGCTGCTCGGACGGTGTTTGTGACGGGGACCTGGAGTGCTGCGTGACGGCGGGCTGTGGGCCTGTTTGTGTGGACCAAGACAAATTAAGACTACAGACCGACATTGTTGACGATACGCCCTCTATGTGCGAATACCTCCGAGACTTCGACGAAAAGATGGAAGGTACGGTGGACGGCATGAAGCTGGCTCTTCCGGCGCCGAGCTGCAACCCAGACGGCAGCTTCACGCCGCAGCAGTGTGCCGGCGGACGGTGCTGGTGCGTCGACTCCTTCGGCACTGAAATACCTGAAACGAGCACCAACAACGCATCCGCCGTGGACTGCGACAAGGTGCGGTCGGAGCTTTCCTGCCTCGAACTGACGTGTCGCATGGGTTGCGACTACGGCTTCGAACTGGGCTCCGGGCGCTGTCCCACTTGTAAATGCCGCGACCCTTGCGCCGGCGTCTCGTGCCCCACGGGCCGGGCCTGCGCCCTCGTAGATGTAGCCTGCGACGCGGATTACTGCCCTCCGGTACCTGCGTGTCTTCCGCGGAAGTCAGGTCAGTGTCCGTATCTGGTGCCGTGGACGGGGTCGTGTGAATGGTCGTGTCGCTCGGACGCGGAGTGCGCCGGTGACGCGAGGTGCTGCGCCACGGGCTGCGGAACAGCCTGTGCCGAGCCGCTGAGACAGACTGGCTGTCAACAGAGACGTGCTCTTGCTTTACACACGGCTGCGGAAAGCGGAAACCCACCCTCGTGGTCGTGGGTCCCTCGCTGTAAGGAAGACGGCTCGTATGAAGGCATCCAGTGCAGAGGATCCACCAACATCTGCTGGTGCGTGGACGGCGTTGGCAATGAGATCCCCGGCACTCGTACAAACAACTCTTCACCAAACTGCACCGCGCCAACTCAGTGCCCAGACCCTAAGTGCGATGAACAGGCAATGTGTCCTCACGGCCGGGAATTAAACGAGAAAGGTTGTCCAACGTGCATCTGTAAGGACCCGTGCGCTGATGCCAAATGTAGAGAAGACGAGACCTGCGAGCTGGTGCCTTTAGAATGCGAGGGTGAAACATGTCCACCGTTGGCCCGCTGCTCGCCGTCTCCTCAGTGTCCGTCAGGGGAGCCTCTCCTGGCCCCCGGTGGCGGAGCCCTTCCCTGTGGCCCCCGCGCCGCCGCCTGCCCCTCTACACACGCCTGTCGGTTCGCTCCCCACGACGCCAAACCAGCCGTCTGCTGTCCAAAGCCTCGAACTGTGTGTTTGGAGAATAAAGACGAGGGTATATGCGAGGGGTCAGGTCTGAACGTGACGCGCTGGCATTTCAACTCGGCTAAGAACAGATGCGAGCGTTTCCTGTACCACGGCTGCTCTGGGAATCACAACAACTTCCGGACCAAGGAAGAGTGCAATGCCGTCTGTCCCGTGTTAAGTCCATGCGAGAGACTACGCGAGAAAAACGAAGCAACCGCCTTGAGGTATGGAAAGGGAACCTTCATACCGGCGTGCGAGGAAAGTGGAGCTTGGCAGTCCGTGCAATGTATGGCGCATATTGACGTCTGCTGGTGCGTGAACGCTCGTGGCGAACCGCAAAAGGGCTCGCTTCTCCGCGGAGGGAAGCCGTCTTGCAACTTCCGACAAGCACGGAAATGGATACGACGCGACCCGCTGGATGAAAAAGACAGAGCTGATGAAGTATTAGAAGAACTGATCAGGCAGATGACAACATATAGAGTAGATGATTTCGAAGAACAAGATGAAGAAGATTCCATAGAGCTGGAGGCTGAACACCGTGAAGGCAATGATCTCCAGGATGTGTCCAGCGAAGACAGCTCCGTGCTGTCGGAAGTCGTGGTCCCGAAACTGGCGGAAACTATACGGAAGACACACCCGGTGCTGGTGACGCCGGTGTCAGAACAAACTGGTCTTAAGACAAAGTGTCAACTGATGCAGGAAGAAGTTGATAATGGTGGTGACGGCTACCGTCCTCGCTGTCACCCTGACGGATCGTTCGCTGCACGTCAGTGTGGAAGAAATCGGTGCTGGTGTGTAGACGCCGCGGGACGGACGCGACACGACACCACACATGCCGACCCTTGCGAGGTCACCCAAATAGAGTCCGCTCTGCTAGAGTTGGAATTGATCGGTACAGAGGAAGACGGAAAGAAGACTCAGAATCTTCTCACAACGAAGCTATCAGCACTAGGTGTTCGAGTGCCAGTGACTATGACAAGAGAAAAGGGCGTGGTGAGGCTGCGGGCGGTGTTGCCAGGGTCAAGGGCCGCTGACGTGGTCTATCAGTTGGAAGCACAGGTGAAGAAGGAGAAACTTTTAAACGCCAACAAATCTGAAGATGGAGTGCTTGGAGCTGATGTTATTCGTAGCGAGTACCGCCTCGCGCCGCCGCGCACGCTGCAGAGAGAGATACTCAGCGAGTCGACGGTGTCGGCTGCTACGTCGTATCACACAGCTCTGATCGTTCTAGCGGCCACCTCGGCGTTCATCATCAGCGTGCTCTGTGTGCTGGTGATGTTGTACCGCGCACGTCTGCAGCGAGAGCCGCATAAAGCTGAACGCTTCCTGCCTCCCGCACCGCCTGTGTACGTCCTATCGGCGGATGAGAAAGCTGAACTGGCGAGAGCGCTACACGCTCCACCAGCCCCGGTACCGCCAGCGAACGCTGATGAAAGAGTGTAA

Protein sequence:

>DPOGS214588-PA
MAPKAVRVALFCACLVILQVSAELKGRCPADEETCPPRATPCNDDNDCGHQICCNTSCGRSCVEPLYTGCENIKLSSERISRALAAENTRSGRGVMRSLRSPRCKVSDGEFEEIQCDNEIISSCWCVDAAGFEVPGTRAPAAGLVNCSRTAPCAAHTCRMLCPLGFELDPNGCPLCKCRDPCSTITCPNQLSCQLEEMPCLRPPCPPVPTCKRGRSLQNICPVGEPLFISETRRPFLCGTDPGKPNCPPLYKCLVESGNDYGVCCPASLELQKAGTCPAPKSSGMDCGTPCVHDLECPSMQKCCDGAECGRHCVLPHNVTICTQQKMLAELLVVSEKEGRGYVPQCTSDGSFLSRQCSRNGLVCWCVDTDGNKLRGSMGPSETVKCSAKPHPARTGARSISSCARALCAGVCEYGYKTGGDGCPSCECDDPCAGFPCAEGEECVRVRDADCSGELCTGYPVCRPKISYENPCSVGVPATDERGAVLTCREGGECGEGHSCTRGGRHGPAVCCPQPDTDTDNTTEPEILEINFEACGPEAEALCGVNSTSSCSDGVCDGDLECCVTAGCGPVCVDQDKLRLQTDIVDDTPSMCEYLRDFDEKMEGTVDGMKLALPAPSCNPDGSFTPQQCAGGRCWCVDSFGTEIPETSTNNASAVDCDKVRSELSCLELTCRMGCDYGFELGSGRCPTCKCRDPCAGVSCPTGRACALVDVACDADYCPPVPACLPRKSGQCPYLVPWTGSCEWSCRSDAECAGDARCCATGCGTACAEPLRQTGCQQRRALALHTAAESGNPPSWSWVPRCKEDGSYEGIQCRGSTNICWCVDGVGNEIPGTRTNNSSPNCTAPTQCPDPKCDEQAMCPHGRELNEKGCPTCICKDPCADAKCREDETCELVPLECEGETCPPLARCSPSPQCPSGEPLLAPGGGALPCGPRAAACPSTHACRFAPHDAKPAVCCPKPRTVCLENKDEGICEGSGLNVTRWHFNSAKNRCERFLYHGCSGNHNNFRTKEECNAVCPVLSPCERLREKNEATALRYGKGTFIPACEESGAWQSVQCMAHIDVCWCVNARGEPQKGSLLRGGKPSCNFRQARKWIRRDPLDEKDRADEVLEELIRQMTTYRVDDFEEQDEEDSIELEAEHREGNDLQDVSSEDSSVLSEVVVPKLAETIRKTHPVLVTPVSEQTGLKTKCQLMQEEVDNGGDGYRPRCHPDGSFAARQCGRNRCWCVDAAGRTRHDTTHADPCEVTQIESALLELELIGTEEDGKKTQNLLTTKLSALGVRVPVTMTREKGVVRLRAVLPGSRAADVVYQLEAQVKKEKLLNANKSEDGVLGADVIRSEYRLAPPRTLQREILSESTVSAATSYHTALIVLAATSAFIISVLCVLVMLYRARLQREPHKAERFLPPAPPVYVLSADEKAELARALHAPPAPVPPANADERV-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: