MonarchBase - Protein-coding gene

DPGLEAN03270 in OGS1.0

New model in OGS2.0	DPOGS210925
Genomic Position	scaffold260:- 16896-32804
	See gene structure
CDS Length	3357
Paired RNAseq reads	2513
Single RNAseq reads	10266
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA005131 (6e-31)
Best Drosophila hit	CG12163, isoform B (9e-46)
Best Human hit	cathepsin H preproprotein (4e-45)
Best NR hit (blastp)	cathepsin [Antheraea pernyi nucleopolyhedrovirus] (7e-66)
Best NR hit (blastx)	cathepsin [Antheraea pernyi nucleopolyhedrovirus] (2e-66)
GeneOntology terms	GO:0005515 protein binding GO:0031648 protein destabilization GO:0008233 peptidase activity GO:0006508 proteolysis GO:0004197 cysteine-type endopeptidase activity GO:0010634 positive regulation of epithelial cell migration GO:0005764 lysosome GO:0005783 endoplasmic reticulum GO:0032526 response to retinoic acid GO:0060448 dichotomous subdivision of terminal units involved in lung branching
InterPro families	IPR000668 Peptidase C1A, papain C-terminal IPR013201 Proteinase inhibitor I29, cathepsin propeptide IPR000169 Peptidase, cysteine peptidase active site IPR013128 Peptidase C1A, papain
Orthology group	MCL22666

Nucleotide sequence:

ATGAACGAGAGGAGTTCGAATGCTGTTTACGGTATCAATAAGTTTTCAGATCTAAGCAAA
GAAGAATTCGTAAAATATTATACTGGTTTGAAACGAGAAGAGAGTCCATCGAATGAGGAT
CATAAAAAAACTGATTTGCCAGAATCATTTAATGTTACTGCACCGGATCAATTTGATTGG
CGAAAGAAAGGAGTTGTCAGCAGCATTAAAAATCAAAAACATTGTGGTTCATGCTGGGCA
TTTAGTGCAGCTGCTAATGTCGAAAGTATACATGCTATAAAGACTGGTAAGCTCATAGAC
GTGTCTGAGCAACAACTACTGGACTGTGATAAATATGATTCGGGATGTTCAGGAGGACTC
CCATGGGATGCTTTGAGATATTTCGTCGCTAATGGTGCAATGTCTTTGAAGTCTTATCCT
TACGTTGCTAAAGAAGGAAAATGCCGTTATGATAGCAGTAAAGTTGAAATAAGATTAAAG
GAATATAAACACAAAGAAAAACTATCGGAAGACCAAATTAAGGAACATCTTTACAATATC
GGACCGTTGAGTATAGCTATAACGTCATCACCACTTGCATCGTATAATGGGGGAATTCTT
ATTGAAGAGTGTCATAGAAGTTATCTAATCAATCACGCTGTTCTTTTGGTAGGATACGGA
AAAGAAAACGGCGTTAAATACTGGATCGTCAAGAATTCCTGGGGTCAGAATTGGGGGGAA
AATGGTTATTTTAGAATGAAGATGGGAGTGAATTGCTTATTGAGAGTTAGGTCAAAAGTG
ACTGAGCAACAACCAGTAGACTATGATATCTGGGATGAGGGATGTTCAGGAGGGATGCAG
TGGTTGGCGATAAGGGAGTTAGGTCAAAGGCGTCTGTACTCTCTGGAGGAGGCTCCAACA
CTTTTCGAACAGTTTATAAAAGATTACAATAAAGAGTATGATGAGAGCGAGAAGGAAGAA
AGGTTTAAAATATTTGTGAACAATTTAAAGGATATTAACGCTATGAACGAGAGGAGTTCG
AATGCTGTTTACGGTATCAATAAGTTTTCGGATCTGAGCAAAGAAGAATTCATAAAATAT
TATACTGGTCTGAAACGAGACAGGTGTACAACGACTGAGCATCATAAAAGTACTGATTTG
CCAAAATCATTTAATATTACTGCACCGGATCAATTTGATTGGCGAAAGAAAGGAGTTGTC
AGCAGCGTTAAAAATCAAAGACATTGTGGTTCATGCTGGGCATTTAGTGCAGCTGCTAAT
GTCGAAAGTATACATGCTATAAAGACTGGTAAGCTCATAGACGTGTCTGAGCAACAACTA
CTGGACTGTGATAAATATGATTCGGGATGTTCAGGAGGACTCGAATGGATTGCCATGAGA
GAGTTAGGTCAAAGGCGTCTGTACTCTCTGGAGGAGGCTCCAACACTTTATGAACAGATT
ATAAAAGATTACAAGAAAGAGTATGATGTGACCGAGAAGGAAGAAAGGTTTAAAATATAT
TCTAGGGAGTTAGGTCAAAGGCGTCTGTACTCTCTGGAGGAGGCTCCAACACTTTTCGAA
CAGTTTATAAAAGATTACAATAAAGAGTATGATGAGAGCGAGAAGGAAGAAAGGTTTAAA
ATATTTGTGAACAATTTAAAGGATATTAACGCTATGAACGAGAGGAGTTCGAATGCTGTT
TACGGTATCAATAAGTTTTCGGATCTGAGCAAAGAAGAATTCATAAAATATTATACTGGT
CTGAAACGAGAGGAGAGTCCATCGAATGAGGATCATAAAAAAACTGATTTGCCAGAATCA
TTTAATGTTACTGCACCGGATCAATTTGATTGGCGAAAGAAAGGAGTTGTCAGCAGCATT
AAAAATCAAAAACATTGTGGTTCATGCTGGGCATTTAGTGCAGCTGGTAATGTCGAAAGT
ATACATGCTATAAAGACTGGTAAGCTCGTACACGTGTCTGAGCAACAACTAGTGGATTGT
GATAGCCAGGATTCGGGATGTTCAGGAGGCTTGACATGGAATGCCATGAGATATTTCCGT
ACAAATGGTGCAGTGTCTTTGAAATCTTATCCTTACGTGGCTCAAAACGAAAATTGCCGC
TATGATAGCAATAAAGTTGTAATCAGATTAAAGGACTACAAACACATCACACAACTGTCA
GAAGATCAAATTAAGGAACATCTTTACAATATAGGACTATTGAGTATAGATATAACTTCA
ACGCAACTTACATGGTATGAAGGTGGAATTCTTATTGAAGAGTGTCGTAGAAGCGATCTA
GTCGATCACGCTGTTCTTTTGGTAGAATACGGAAAAGAAAACAGCGTTGAATACTGGATC
GTCAAGAATTCCTGGGGTCAGAATGGGGGGGAAAAAGTTGCATTACAATATAATGTATAT
TCTAGGGAGTTAGGTCAAAAGCATCTGTACTCTCTAGAGGAGGCTCCAACACTTTTCGAA
CAGTTTATAAAAGATTACAATAAAGAGTATGATGAGAGCGAGAAGGAAGAAAGGTTTAAA
ATATTTGTGAACAATTTAAAGGATATTAACGCTATGAACGAGAGGAGTTCGAATGCTGTT
TACGGTATCAATAAGTTTTCGGATCTGAGCAAAGACGAATTCGTGAAATTTTATACCGGT
CTGAAACGAGAAGAGAGTCCATCGAATGAGGATCATAAAAAAACTGATTTGCCAAAATCA
TTTAATGTTACTGCACCGGATCAATTTGATTGGCGAAAGAAAGGAGTTGTCAGCAGCGTA
AAGTTTCAAGGACATTGTGTTTCATGCTGGGCATTTAGTGTGGCTGGTAATGTTGAAAGT
ATAAATGCTATAAAGACTGGTAAGCTCATAGACGTGTCTGAGCAACAACTAGTGGATTGT
GATGAGTGGAATTTTGGATGTTCAGGAGGGATTGCCTGCTCAAAATCTCATTTCAGTTAT
TTCCATAAAAAAGGTGCAATGTCCTTGGAGTCTTATCCTTACGTTGGTAAAGAAGGACAA
TGCAGGTATAATAGCAGTAAAGTTGTAATCAGATTAAAGGACTATCAATACTTTATAGCA
CTGTCGGAAGATGAAATTAAGGAATATCTTTATAATATCGGACCGTTGAGTATAGATATA
GATTCATCACAAATTCATCACTATAAAGGTGGAATTGTTATTAAGGAGTGTCAAGAAGTC
AAAAAAACCAATCACGCAGTTCTTTTGGTAGGATACGGAAAAGAAAACGGCGTTGAATAC
TGGATTGTCAAGAATTCCTGGGGTCAGAATTGGGGGGAAAAAGGTTATTTTAGAATACAG
AGGGGAGTGAATTGTTTATTGCTAGCTAAAGATGGAATTACAACAGCTGTTATATAA

Protein sequence:

MNERSSNAVYGINKFSDLSKEEFVKYYTGLKREESPSNEDHKKTDLPESFNVTAPDQFDW
RKKGVVSSIKNQKHCGSCWAFSAAANVESIHAIKTGKLIDVSEQQLLDCDKYDSGCSGGL
PWDALRYFVANGAMSLKSYPYVAKEGKCRYDSSKVEIRLKEYKHKEKLSEDQIKEHLYNI
GPLSIAITSSPLASYNGGILIEECHRSYLINHAVLLVGYGKENGVKYWIVKNSWGQNWGE
NGYFRMKMGVNCLLRVRSKVTEQQPVDYDIWDEGCSGGMQWLAIRELGQRRLYSLEEAPT
LFEQFIKDYNKEYDESEKEERFKIFVNNLKDINAMNERSSNAVYGINKFSDLSKEEFIKY
YTGLKRDRCTTTEHHKSTDLPKSFNITAPDQFDWRKKGVVSSVKNQRHCGSCWAFSAAAN
VESIHAIKTGKLIDVSEQQLLDCDKYDSGCSGGLEWIAMRELGQRRLYSLEEAPTLYEQI
IKDYKKEYDVTEKEERFKIYSRELGQRRLYSLEEAPTLFEQFIKDYNKEYDESEKEERFK
IFVNNLKDINAMNERSSNAVYGINKFSDLSKEEFIKYYTGLKREESPSNEDHKKTDLPES
FNVTAPDQFDWRKKGVVSSIKNQKHCGSCWAFSAAGNVESIHAIKTGKLVHVSEQQLVDC
DSQDSGCSGGLTWNAMRYFRTNGAVSLKSYPYVAQNENCRYDSNKVVIRLKDYKHITQLS
EDQIKEHLYNIGLLSIDITSTQLTWYEGGILIEECRRSDLVDHAVLLVEYGKENSVEYWI
VKNSWGQNGGEKVALQYNVYSRELGQKHLYSLEEAPTLFEQFIKDYNKEYDESEKEERFK
IFVNNLKDINAMNERSSNAVYGINKFSDLSKDEFVKFYTGLKREESPSNEDHKKTDLPKS
FNVTAPDQFDWRKKGVVSSVKFQGHCVSCWAFSVAGNVESINAIKTGKLIDVSEQQLVDC
DEWNFGCSGGIACSKSHFSYFHKKGAMSLESYPYVGKEGQCRYNSSKVVIRLKDYQYFIA
LSEDEIKEYLYNIGPLSIDIDSSQIHHYKGGIVIKECQEVKKTNHAVLLVGYGKENGVEY
WIVKNSWGQNWGEKGYFRIQRGVNCLLLAKDGITTAVI