MonarchBase - Protein-coding gene

DPGLEAN00212 in OGS1.0

New model in OGS2.0	DPOGS202102
Genomic Position	scaffold2256:+ 19652-24092
	See gene structure
CDS Length	1638
Paired RNAseq reads	4307
Single RNAseq reads	10049
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA009139 (5e-86)
Best Drosophila hit	26-29kD-proteinase (6e-83)
Best Human hit	cathepsin H preproprotein (1e-53)
Best NR hit (blastp)	putative C1A cysteine protease precursor [Spodoptera frugiperda] (1e-156)
Best NR hit (blastx)	putative C1A cysteine protease precursor [Spodoptera frugiperda] (8e-151)
GeneOntology terms	GO:0004197 cysteine-type endopeptidase activity GO:0006508 proteolysis GO:0005811 lipid particle GO:0005875 microtubule associated complex
InterPro families	IPR013201 Proteinase inhibitor I29, cathepsin propeptide IPR000668 Peptidase C1A, papain C-terminal IPR000169 Peptidase, cysteine peptidase active site IPR013128 Peptidase C1A, papain
Orthology group	ND

Nucleotide sequence:

ATGATTGCCTTTATATTAAAAATTTTTCCGTTACTCATTGTTGCATCGGTTGCTGGGAAA
AATGTTCTTGAAGATGACCTTCCAAAACTGAAATGGCCCAAAAAGTATTCGTTCGAAGCC
GAATCTCTGTCACTGACGTCAGGTTTGGTTCAAGATGTCACCTACTGGCGAGTCAGCAAA
AAATCGAGGGTAGATTTTAACAAAGGTGCCGTAAAACTGATATCAATTAAGGGCCAGAGG
AAGTCAAAATTTCCTTTCGGTGTAAAATATGAGATTCATCCCGAAAGTAATGAAGAATAT
GAGAACAAATTCATCTGCACGGGAATGAAAGGAAACATCTTCAGACAAGCCAAACTGGAT
AAGGTTTTGCCAGATGTTGACGATTTTGTCCACATTGGGAAGGAGAAACTTGAATTAGGT
GAGGTGGAAAAGTTTACATTCTTTGAAGACAAAGATTATATTAACTCTCAAACGAGGCAG
AATTTATGGGTGTTACAAAATGATTCAACATTTATACCCGTTAGATATGAGAAGATAATA
TATAATACTTGGATTAAAAATGTGAAAGATCACACAATTTGGAACATCTTCAACTTCAAA
ACCGATTTCAGCGAAGACGTCTTCGACACAGATGACTATGATTGCAAAATTAATTCGCCC
AAAAATAACAATGAAAATGAAGAGGTTGATAGTGATGAAAGCACAAACTTGGATTCGGAT
CACGTATTCGCAGAATTTATGCAAAAGCACAATAAAAACTACGACGGTCCTGAACATGAG
CAGCGCAGAAAAATTTTTGAAACTAATTTAAGAAAGATTGAGGAACATAATAGAAGTAAT
AAAAACTTCAAGCTAGCAATAAACAAGTTTGCTGATCTTACCCACAAAGAAATGGAAAAA
CGGAAGGGTCTCAAACGACGAGGCAAATCATCAGGCGCAATTCCATTTCCGTATAGCAAA
TCGAAGATCGCTGAAATGTCTGATACTCTACCGAAAGAATATGACGCGAGGATGTACGGC
CTAGTAACATCGGTTAAGGATCAACAGGATTGTGGATCGTGTTGGACTTTTGGAACAACT
AGCGCGGTAGAGGGAGCTCTAGCAAGAATAAATGGTGGAAGACTTATGAGACTCGCCAAC
CAAGCTCTTATAGACTGTGCCTGGGGATATGAGAATTTTGGCTGTGACGGGGGTACAGAC
ACGGGAGCGTATCACTGGATGTTGAATTATGGCATGCCCACTGAAGAGGAGTATGGTCCA
TATGTGAACAAAGACGGTTTCTGTAGAATACACAATATGACGCAAACCTACAAGATAAAA
GGATTTACTAACGTTACACCCTACAGCGTTGAAGCTCTTAAGGTGGCCTTGGTGAACCAC
GGTCCGTTGTCGGTGTCCATCGACGCTACAGACATGCTTACTTATTACAACGGCGGTATC
TACTCCGATAGTGACTGCAGTACTACAAATTTAAACCATGAAGTAACTCTCGTCGGCTAC
GGTGAATTGGACGGTGAAGAGTATTGGATAGTGAAAAATTCTTGGGGTAGGGATTGGGGT
GTTGACGGCTATTTCCATATCACAACCCGGGATAACAGCTGCGGGATCACCACTGAACCT
ACTTATGTAGTTTTCTAA

Protein sequence:

MIAFILKIFPLLIVASVAGKNVLEDDLPKLKWPKKYSFEAESLSLTSGLVQDVTYWRVSK
KSRVDFNKGAVKLISIKGQRKSKFPFGVKYEIHPESNEEYENKFICTGMKGNIFRQAKLD
KVLPDVDDFVHIGKEKLELGEVEKFTFFEDKDYINSQTRQNLWVLQNDSTFIPVRYEKII
YNTWIKNVKDHTIWNIFNFKTDFSEDVFDTDDYDCKINSPKNNNENEEVDSDESTNLDSD
HVFAEFMQKHNKNYDGPEHEQRRKIFETNLRKIEEHNRSNKNFKLAINKFADLTHKEMEK
RKGLKRRGKSSGAIPFPYSKSKIAEMSDTLPKEYDARMYGLVTSVKDQQDCGSCWTFGTT
SAVEGALARINGGRLMRLANQALIDCAWGYENFGCDGGTDTGAYHWMLNYGMPTEEEYGP
YVNKDGFCRIHNMTQTYKIKGFTNVTPYSVEALKVALVNHGPLSVSIDATDMLTYYNGGI
YSDSDCSTTNLNHEVTLVGYGELDGEEYWIVKNSWGRDWGVDGYFHITTRDNSCGITTEP
TYVVF