MonarchBase - Protein-coding gene

DPGLEAN11992 in OGS1.0

New model in OGS2.0	DPOGS213403
Genomic Position	scaffold163:+ 79746-84368
	See gene structure
CDS Length	1662
Paired RNAseq reads	11908
Single RNAseq reads	28708
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA009139 (0.0)
Best Drosophila hit	26-29kD-proteinase (5e-174)
Best Human hit	cathepsin K preproprotein (2e-49)
Best NR hit (blastp)	homologue of Sarcophaga 26,29kDa proteinase [Periplaneta americana] (0.0)
Best NR hit (blastx)	cathepsin L precursor [Tribolium castaneum] (0.0)
GeneOntology terms	GO:0004197 cysteine-type endopeptidase activity GO:0006508 proteolysis GO:0005811 lipid particle GO:0005875 microtubule associated complex
InterPro families	IPR013128 Peptidase C1A, papain IPR013201 Proteinase inhibitor I29, cathepsin propeptide IPR000668 Peptidase C1A, papain C-terminal IPR000169 Peptidase, cysteine peptidase active site
Orthology group	MCL15111

Nucleotide sequence:

ATGTTTGTCTACACTCTATTGTGTTTCTACTTGGGCTCCGTTGTAGGACTTCGCATCGAT
AAAGATAATCCACCGCAATGGAGCGATGTTTACACGGTCAAGGGTTTATTAAATATTCCC
TACGCAGAACTTCACGAACCTTTTTATGCGTGGTTCGACAGCAAGAATGGCAAGTCTCGT
ATTGACTACTACGGTACTATGGTGAAGACCTACCAGCTGTCTGCCTCCGTCTACCCTCAG
TATGGTACATCCATTAAGATAGCTCCGGTGACTACTGAGCATGTCCTGAACCAGGACACC
TGTCTTCAGGTGAACGGTACGGAGGGAGAGAATATTAACATTCAGACCGTACTCCCTGAC
ATGACCGACTTCAAGTTTGTAGGAACAGAGACTATGAAAGACTCCGACACCTTCAAGTGG
CGCATGGTGACCTCTGTAGGGGATAAGGTCAACAAATACACGATGTGGGTCAAGTACAGG
AAGAGTCTGAGAGGAGACAACATTGCTATACCAGTCAGGTACGAGATGAAGGGTTTTAAC
TCTCTGCTGGGCTCTCACTACGACCACTATTATTTGGATTACACGGACTTTGACAACAGC
GATATCGAGCCCGACGTCTTCAAAGTAGATTCCAGCTTCAAGTGTTCGTCGTTCCCGGGC
CCGGGTTTTCGCCACATGGCCACCTTCAACCCCATGAAGGAGTTCGTTCACCCCGCCAGC
GATGAGCATGTCCATCACGAGTTCGACCGGTTCGTCAATAAACACAACAAGCAGTACGCC
TCGGAGGTCGAGAAGACTAAGAGGATCAATATATTCAGACAGAATTTAAGATTGATTCAC
TCTCACAATCGCGCTCACCGCGGCTTCTCTCTGGCCGTGAATCATCTCGCAGACCACACG
GACGAGGAGCTCGCCGCGCGCCGGGGCAGGAGATACACGGGACACAACGCAGGGCTGCCG
TTCCCGTACGGCGAGGCGGAGCTGGCGGACATGAGCGTCAAGCTGCCGCCGGAGTTCGAC
TGGAGGCTGTTCGGCGCCGTGACGCCCGTCAAAGACCAGTCGGTGTGCGGGTCTTGTTGG
TCGTTCGGCACGGTGGGGGCGGTGGAGGGCGCGCTGTTCCTCAGCAACGGAGGACATCTC
GTGAGACTCAGCCAACAGGCGCTCGTGGACTGCTCCTGGGGTTTCGGTAACAACGGCTGT
GACGGCGGCGAGGACTACCGCGCCTACCAGTGGATCATGAGACACGGCCTGCCCACGGAG
GACGACTACGGAGGATACCTCGGACAGGACGGCTACTGCCACATGGAGAACGTGACGGTC
GCCACCAAGATGAAGGGCTGGGTGAACGTCACCGCCAAGAACGAGAACGCGCTGAAGTTG
GCGATCTTCAAACACGGCCCGGTGTCGGTGGCCATCGACGCCTCGCACAAGACCTTCAGC
TTCTACTCCAACGGAGTCTACTTCGAGCCCAAATGTAAGAACAGCGTGGAGGAGCTGGAC
CACGCGGTGCTGGCGGTCGGGTTCGGCGTTCTGAACGGACACAAGTACTGGCTCGTCAAG
AACAGCTGGTCCAACATGTGGGGGAACGACGGGTACGTGCTCATGTCGGCCAGAGACGAC
AACTGTGGGGTCCAGGCCGCCCCCACCTACGTCATCATATAG

Protein sequence:

MFVYTLLCFYLGSVVGLRIDKDNPPQWSDVYTVKGLLNIPYAELHEPFYAWFDSKNGKSR
IDYYGTMVKTYQLSASVYPQYGTSIKIAPVTTEHVLNQDTCLQVNGTEGENINIQTVLPD
MTDFKFVGTETMKDSDTFKWRMVTSVGDKVNKYTMWVKYRKSLRGDNIAIPVRYEMKGFN
SLLGSHYDHYYLDYTDFDNSDIEPDVFKVDSSFKCSSFPGPGFRHMATFNPMKEFVHPAS
DEHVHHEFDRFVNKHNKQYASEVEKTKRINIFRQNLRLIHSHNRAHRGFSLAVNHLADHT
DEELAARRGRRYTGHNAGLPFPYGEAELADMSVKLPPEFDWRLFGAVTPVKDQSVCGSCW
SFGTVGAVEGALFLSNGGHLVRLSQQALVDCSWGFGNNGCDGGEDYRAYQWIMRHGLPTE
DDYGGYLGQDGYCHMENVTVATKMKGWVNVTAKNENALKLAIFKHGPVSVAIDASHKTFS
FYSNGVYFEPKCKNSVEELDHAVLAVGFGVLNGHKYWLVKNSWSNMWGNDGYVLMSARDD
NCGVQAAPTYVII