MonarchBase - Protein-coding gene

DPGLEAN00460 in OGS1.0

New model in OGS2.0	DPOGS214009
Genomic Position	scaffold624:- 3156-12658
	See gene structure
CDS Length	1149
Paired RNAseq reads	942
Single RNAseq reads	2289
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA009230 (4e-90)
Best Drosophila hit	CG12163, isoform B (5e-29)
Best Human hit	cathepsin O preproprotein (2e-46)
Best NR hit (blastp)	PREDICTED: similar to Cathepsin O precursor [Apis mellifera] (6e-89)
Best NR hit (blastx)	PREDICTED: similar to cathepsin o [Nasonia vitripennis] (4e-86)
GeneOntology terms	GO:0006508 proteolysis GO:0008233 peptidase activity GO:0005764 lysosome GO:0004197 cysteine-type endopeptidase activity
InterPro families	IPR000169 Peptidase, cysteine peptidase active site IPR013201 Proteinase inhibitor I29, cathepsin propeptide IPR000668 Peptidase C1A, papain C-terminal IPR013128 Peptidase C1A, papain
Orthology group	MCL15949

Nucleotide sequence:

ATGAAGAAATGGTGGAATTGGATTCTTGTTGTGGCCTTAGTGTGTTTGTTATTCGTTGCT
ATACCTCTTTCATATCCCGATAGGACTAAAGAATCCCTTCGTCCCATGTTTGATGAGTAT
ATAGAAAATTTCAATAAAACTTATAAGGACGACCCCGCCGAGTACGAAAAAAGATTAGAG
CATTTTGTGGCCTCCGTAAAAGAGATAGATAGATTGAACTCAGCAGCAAGAGGTCCCGAA
CAGCACAGGGCGAGGTATGGACTCACACAAATGTCAGATATGTCGAAAGATGAATTCAGA
GATGTACATCTATCAGACGAACAACCTCATCGATATAGAAGACATAAGCTAGGGAAGAGT
TGGAGCAAAGGTAGAGTGAAGGATATTGAGGACGTGGCCGATAACATGGATGATTACGAT
GATGAGGATGATGATGATAAGGAGGGTAGTCCGCATCATAATATTTATATTGTCATCAGA
AAGAAACGCGCCATGCTACCACTTCAGGTTGATTGGAGAACTAAGGGTGTGATAGGTCCC
GTACGCGATCAGGGTCTGTGTGGAGCGTGCTGGGCTTTCAGTACGATTGGCACAATGGAA
GCCATGGCTGCCATAGACACCGGCAAGCTTAACACGCTCAGTGTCCAGGAAGTTATAGAC
TGCGCTGGTTTGGGGAACAGCGGTTGTGCTGGTGGCGATATATGCCTTTTATTAGACTGG
TTGCTCATGACGGATACCGCTGTCCAAGTTGAGAAGGAGTATCCTCTCAAGCTGACGAAC
GGTGTATGTCAGGCTAAGAAAAATGCAACCGGTGTCAAAGTCGCCAAGTTCACGTGTACC
GATCTGGTGGGCGCGGAGGATAAGATAATCGAGTCTATAGCAACCCATGGTCCAGTGGCC
GTCGCGGTGAACGCGCTCACGTGGCAGAACTACCTTGGCGGTGTCATACAGTACCATTGC
AGCGGTAGCCCCAAAGAACTGAACCACGCTGTAGAGCTAGTAGGTTATGATCTAACAGCA
GAGGTACCTTACTACATAGCCAAGAACTCGTGGGGCCAAGGTTTTGGTCTCGACGGATAT
CTTAAACTGGCGATCGGATGCAACATATGCGGACTAGCCAATGAGGTAGCTAGCATAGAC
ATTAAATAG

Protein sequence:

MKKWWNWILVVALVCLLFVAIPLSYPDRTKESLRPMFDEYIENFNKTYKDDPAEYEKRLE
HFVASVKEIDRLNSAARGPEQHRARYGLTQMSDMSKDEFRDVHLSDEQPHRYRRHKLGKS
WSKGRVKDIEDVADNMDDYDDEDDDDKEGSPHHNIYIVIRKKRAMLPLQVDWRTKGVIGP
VRDQGLCGACWAFSTIGTMEAMAAIDTGKLNTLSVQEVIDCAGLGNSGCAGGDICLLLDW
LLMTDTAVQVEKEYPLKLTNGVCQAKKNATGVKVAKFTCTDLVGAEDKIIESIATHGPVA
VAVNALTWQNYLGGVIQYHCSGSPKELNHAVELVGYDLTAEVPYYIAKNSWGQGFGLDGY
LKLAIGCNICGLANEVASIDIK