MonarchBase - Protein-coding gene

DPGLEAN05845 in OGS1.0

New model in OGS2.0	DPOGS209955
Genomic Position	scaffold128:- 164627-168245
	See gene structure
CDS Length	1026
Paired RNAseq reads	9369
Single RNAseq reads	36741
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA011342 (4e-147)
Best Drosophila hit	cysteine proteinase-1, isoform C (1e-123)
Best Human hit	cathepsin L1 preproprotein (4e-90)
Best NR hit (blastp)	cathepsin L-like protease [Helicoverpa armigera] (6e-162)
Best NR hit (blastx)	putative C1A cysteine protease precursor [Manduca sexta] (3e-164)
GeneOntology terms	GO:0004197 cysteine-type endopeptidase activity GO:0030163 protein catabolic process GO:0005764 lysosome GO:0048102 autophagic cell death GO:0035071 salivary gland cell autophagic cell death GO:0006508 proteolysis GO:0045169 fusome
InterPro families	IPR000169 Peptidase, cysteine peptidase active site IPR013128 Peptidase C1A, papain IPR000668 Peptidase C1A, papain C-terminal IPR013201 Proteinase inhibitor I29, cathepsin propeptide
Orthology group	MCL11686

Nucleotide sequence:

ATGAAAATTTTACTCGTATTATGTGCTGTGGTGGCGGCTGGCACTGCCGTCAGCTTCTTC
GACCTCGTCCGCGAGGAGTGGAACACCTTTAAGCTAGAGCACAAGAAGCAGTACGACAGC
GAGACGGAGGAGAAGTTCCGTATGAAGATATACGCGGAGAACAAACACAAGGTCGCCAAA
CACAACCAGCGGTACCAGAAGGGTCTGGTCTCCTACAGGCTGAAGACGAACAAGTACTCC
GACATGCTGCACCACGAGTTCGTCAACACCATGAACGGATTCAACAAGACCGTGAAACAC
AACAAGGGGCTGTACGCGAAGGGTAACGATATCCGCGGGGCCACTTTCGTGTCCCCGGCC
AACGTGGCGGCGCCTCCCACCGTGGACTGGAGGCAGCACGGAGCCGTCACCCCCGTCAAG
GACCAGGGCAAATGTGGATCATGCTGGTCGTTCTCTACCACGGGAGCACTGGAGGGCCAA
CACTTCCGTAAGAGCGGCTTCCTGGTGTCTCTCTCGGAGCAGAACCTCATCGACTGCTCC
TCCGCGTACGGAAACAACGGATGTAACGGCGGCCTCATGGACAACGCCTTCAAGTACATC
AAGGACAACGACGGCATCGACACCGAGAAGACCTACCCCTACGAGGCCGTGGACGACAAG
TGCAGGTACAACCCCAAGAACTCGGGCGCCGAGGACGTGGGCTTCGTGGACATCCCCGCC
GGAGACGAGCACAAGCTGATGCTGGCGCTGGCCACCGTGGGACCCGTGTCCGTCGCCATA
GACGCGAGCCAGGAGTCCTTCCAGCTCTACTCTGACGGCGTCTACTACGACGAGAACTGC
TCCTCCGAAAACCTCGACCATGGAGTGTTGGTGGTGGGTTACGGCACGGACGAGGACGGC
GGCGACTACTGGCTGGTGAAGAACTCGTGGGGGCCGTCCTGGGGAGACGAGGGCTACATC
AAGATGGCCCGCAACAGAGACAACCACTGCGGCATCGCCTCCTCCGCCTCCTACCCGCTC
GTGTAG

Protein sequence:

MKILLVLCAVVAAGTAVSFFDLVREEWNTFKLEHKKQYDSETEEKFRMKIYAENKHKVAK
HNQRYQKGLVSYRLKTNKYSDMLHHEFVNTMNGFNKTVKHNKGLYAKGNDIRGATFVSPA
NVAAPPTVDWRQHGAVTPVKDQGKCGSCWSFSTTGALEGQHFRKSGFLVSLSEQNLIDCS
SAYGNNGCNGGLMDNAFKYIKDNDGIDTEKTYPYEAVDDKCRYNPKNSGAEDVGFVDIPA
GDEHKLMLALATVGPVSVAIDASQESFQLYSDGVYYDENCSSENLDHGVLVVGYGTDEDG
GDYWLVKNSWGPSWGDEGYIKMARNRDNHCGIASSASYPLV