MonarchBase - Protein-coding gene

DPOGS204736
Transcript	DPOGS204736-TA	2655 bp
Protein	DPOGS204736-PA	884 aa
Genomic position	DPSCF300231 - 635867-638758
RNAseq coverage	107x (Rank: top 60%)

Annotation
*Heliconius*	HMEL011585	0.0	46.14%
*Bombyx*	BGIBMGA013655-TA	3e-33	28.93%
*Drosophila*	CG32354-PA	1e-27	28.28%
EBI UniRef50	UniRef50_F0VGR8	3e-75	32.70%	Serine protease inhibitor dipetalogastin n=4 Tax=Sarcocystidae RepID=F0VGR8_NEOCL
NCBI RefSeq	XP_002117100.1	1e-36	24.20%	hypothetical protein TRIADDRAFT_61048 [Trichoplax adhaerens]
NCBI nr blastp	gi\|237831751	5e-77	33.28%	serine protease inhibitor dipetalogastin precursor, putative [Toxoplasma gondii ME49]
NCBI nr blastx	gi\|221486979	2e-99	34.42%	follistatin, putative [Toxoplasma gondii GT1]

Group
Gene Ontology	GO:0005515	4.2e-12	protein binding
KEGG pathway	spu:586604	5e-32
	K06254 (AGRN)	maps->	ECM-receptor interaction
InterPro domain	[335-382] IPR002350	4.2e-12	Proteinase inhibitor I1, Kazal
	[338-382] IPR011497	9.3e-11	Protease inhibitor, Kazal-type
Orthology group	MCL20538		Insect specific

Nucleotide sequence:

>DPOGS204736-TA
ATGAAGACTGTAATAGGTCTACTGTTTATCTTCGCATCGATATGTTATTTGGATGCGAAAAGAATAAAAAAAAGGTCATGCATCTGTACAGAACTATACAGTCCTATATGTGGTACTGATGGAACCACTTACACGAATAAATGTTTTTTCAATTGCGCCAAAAATACCCACAAAAAACATGGTTCCACAAAAGACATATATATAGCCTATGAAGGAAAATGTAGTGACTCATGTATTTGCAAGGATAACTATTCTCCGGTATGTGGCAGTGACGGCAAAACGTACCCTAATAGCTGTTATCTTAATTTTAAAAGTAAAGAAATAGAAAATGACTGTAAAAATAACGGAGACGATCCTGATGAAAACAAATTAATAGAAGCATATAAAGGTGAATGTTCCGACGAATGTTTTTGCACAGATGAATATGCACCAATTTGCGCTAACAACAATAAAACTTACTCGAATTCCTGCCAACTAGAGTGTGAGAATAAAAAAAGAAAAAATAATAATTTACCGCCTCTTGTGGTTAAAAGTGACGGTCAATGTCCCAAACCATGTATCTGCGAAGGAATGTATCAACCGATATGCGGTGACGATGGGAAAACTTATGCCAATGTTTGTAGTTTAGGATGTATTAATGAAGAAAGACAAAATAATAACCTTCCACCAATAAGTAAAAGGAGTGACGGAAAATGTCCGAACATATGTAAATGTCCAAAAATATATAAACCAGTATGTGGAAATGATGGCAAAACATATCCAAGTAATTGCAATTTAAAATGTATAAACAAAGAGAGAGAAGGAAACAAGCTGTCACCCATTAGAGAAATCAGTAAGGGCGAGTGTCCAAAAACATGTGTATGCCCTTTTAATTATTTACCTGTATGCGGTTCTGATGGAGTTACTTATTCTAATGAATGTTTACTTAAATGTGCAAGTAAGGACAATGAAAAGAAAAACTTACCACCTATAACTGTTGTAAATGAAACGTCATGCCCAGAATCATGTCTGTGTCCATTAATCTATGAGCCAATATGCGGTGACGACGGCAAAACATATTCCAGTAGTTGTGAACTGAGATGTAAAAATAAAGAAAGAGAAATAAATAAAGAACTACCAATTAAAAAAGTCAGTGATGGGGAATGCTCAAAACCATGTCGTTGTCCAAAAATTTATAGTCCCGTGTGTGGTGATAATGGTGAAACATTTTCTAATAACTGTGAATTAGAATGTGAAAACAAAAAACGCCAAGCTAAAAATGAATCACCAATAGCTGTGGTAAGTAAGGGAAAGTGTCCGGAACCTTGTAGTTGCCCAAAAATATTCGAACCTGTATGTGGTGATGACGGAATAACTTATTCCAGCAGTTGTGATTTAGGTTGTGTTAATAAAGAAAAAGAAAAAAATAATGAAGCACCCATCCTTGAGGTTTCCAAAGGTGCATGCCCAGGTTCCTGTATATGTCCATTAATAATTTCAGAGCCTGTTTGTGGAAGCGACGGTCAAACTTATCGTAGTGAATGTGAATTAGACTGTGAAAATAAAATAAGAATAGCAAAAGATGAATCACCTCTCTCTGTTATTAGCAAGGGTGAATGTCCAAAAGCTTGCGCGTGTCCTTTAATAGATCTTCCTGTTTGCGGTTCGGATGACGTCACTTACCCTAACGAATGTTCACTTAACTGTACAAGTGCAGATAATGTAAGAAAAAGTTTACCTGCTATTACTGTGAAAAGCCAAGGAGAATGTGAAGAGTCATGCATATGTTCAACAAATTATGATCCTATATGTGGTTCAGACGGTGTAACTTACTCCAACGAGTGTCAACTAGAATGCAAAAATAAAAAGCGAATCAAAAACTCCCTAGATAGAATAGATATTGTAAAAAAAGGAAAATGTAATGGATCCTGCAGCTGTCCTGCAGATGTCAATCCAGTATGTGGCAGTGACGGACAAAGTTATCCCAATGAATGTCAATTAGTATGCGAGAGCGATGATTTGGTACGACAGGGGCTTTCAGCTTTAGAAGTCATCGAAAGTGATCTTTGTGAAGAATCATGCGAATGTTATAACGCAATTATACCAGTTTGCGGGTCAAATAATAAATCTTACAGAAATGCTTGCTATTTAGATTGTGCCAACAGAAACAGAAGAGGCAATGAAACATCAATTACGATAAAATATAGTGGTGCATGCAGAAGTTGCACTTGCACCCGAGAACTTAACCAAGTGTGTGGTAGCGACGGTAATACGTATAATAATCCTTGTCTTTTAGATTGTGAAAGTGAAAGACTAAAAGGAATAGGAAAATCACCTCTGTATATTATTCACTATGGCGACTGTCAAGGATGTGATTGTTCAAATGAATACGAACCTGTCTGTGGAACTGATAACAATACATACACAAACTTATGTCAATTACAGTGTGAAAGTAACATTAGACAACGTGAAAATCAGAAAGAGATAGCTCTCCTCAGCAAAGGAACATGCCCAGAGAGTGATTATGATTGTGAAAATTGCCCTCTTACGTACCAACCAGTTTGTGGTAAAGATCTTGTAAGCTACTGGAACGACTGCTGGTTTAAATGTAGTAATAAATGTAAACTGAGTCGTGGGGAAAAACCTATCCCGATGGCTAAAACTGGATGCTGTTAA

Protein sequence:

>DPOGS204736-PA
MKTVIGLLFIFASICYLDAKRIKKRSCICTELYSPICGTDGTTYTNKCFFNCAKNTHKKHGSTKDIYIAYEGKCSDSCICKDNYSPVCGSDGKTYPNSCYLNFKSKEIENDCKNNGDDPDENKLIEAYKGECSDECFCTDEYAPICANNNKTYSNSCQLECENKKRKNNNLPPLVVKSDGQCPKPCICEGMYQPICGDDGKTYANVCSLGCINEERQNNNLPPISKRSDGKCPNICKCPKIYKPVCGNDGKTYPSNCNLKCINKEREGNKLSPIREISKGECPKTCVCPFNYLPVCGSDGVTYSNECLLKCASKDNEKKNLPPITVVNETSCPESCLCPLIYEPICGDDGKTYSSSCELRCKNKEREINKELPIKKVSDGECSKPCRCPKIYSPVCGDNGETFSNNCELECENKKRQAKNESPIAVVSKGKCPEPCSCPKIFEPVCGDDGITYSSSCDLGCVNKEKEKNNEAPILEVSKGACPGSCICPLIISEPVCGSDGQTYRSECELDCENKIRIAKDESPLSVISKGECPKACACPLIDLPVCGSDDVTYPNECSLNCTSADNVRKSLPAITVKSQGECEESCICSTNYDPICGSDGVTYSNECQLECKNKKRIKNSLDRIDIVKKGKCNGSCSCPADVNPVCGSDGQSYPNECQLVCESDDLVRQGLSALEVIESDLCEESCECYNAIIPVCGSNNKSYRNACYLDCANRNRRGNETSITIKYSGACRSCTCTRELNQVCGSDGNTYNNPCLLDCESERLKGIGKSPLYIIHYGDCQGCDCSNEYEPVCGTDNNTYTNLCQLQCESNIRQRENQKEIALLSKGTCPESDYDCENCPLTYQPVCGKDLVSYWNDCWFKCSNKCKLSRGEKPIPMAKTGCC-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: