MonarchBase - Protein-coding gene

DPGLEAN09015 in OGS1.0

New model in OGS2.0	DPOGS204359
Genomic Position	scaffold811:- 5155-7619
	See gene structure
CDS Length	1329
Paired RNAseq reads	380
Single RNAseq reads	906
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA013737 (9e-53)
Best Drosophila hit	CG31326 (7e-27)
Best Human hit	serine protease hepsin (1e-22)
Best NR hit (blastp)	hemolymph proteinase 16 [Manduca sexta] (1e-119)
Best NR hit (blastx)	hemolymph proteinase 16 [Manduca sexta] (2e-116)
GeneOntology terms	GO:0004252 serine-type endopeptidase activity GO:0006508 proteolysis GO:0003824 catalytic activity GO:0016787 hydrolase activity GO:0008233 peptidase activity GO:0008236 serine-type peptidase activity
InterPro families	IPR009003 Peptidase cysteine/serine, trypsin-like IPR018114 Peptidase S1/S6, chymotrypsin/Hap, active site IPR001314 Peptidase S1A, chymotrypsin-type IPR001254 Peptidase S1/S6, chymotrypsin/Hap
Orthology group	MCL12074

Nucleotide sequence:

ATGAAGAAAAAAGTTATTTTGTTAATAACTTTAGTTCTAAAATTTACCGTGTGTGCGAAA
GCTGTGTGGACGAATGTCGGATCGGCGTATTTCTCAGTAAGACTGTGTAAGGATTCAAAC
GAAATCTCAGCATCATATGAGTCCGACCAGCCTCCCGAACTTGAAAACGCCTATGACGTT
CATGTTTCTATATTATTTCCAAAATATACAACAGTGTACATAAAGTTAGACTCCGAAGGC
AGTATTAAGTTGGCGGAAAAAACATATGCAAGAATATATCCCTATGACAATAATGAATTT
TCAATTCGTTTTTTTGCTGAACATGATGGTTTGGGTTTCAAAGTCCATGGAAAAAAAATA
GGAGTTGTTCCATATATTACTAGTTTGACAATTAATTCTCAAGAATATTGTTCAAAACCA
GCCCTGGGATTTCTTGATGGATATGTGTCGGGATATAAAGACTATGCAGAAAGTGAAAAT
CGTAAGTTAGAAGGGAACTGTGGTAGACGTAAAGTATCGCACACAGAATTAATAGTCAAT
GGATCTCCCACTAAACCCGGTGACTGGCCCTGGCACACCGCAATATATAGACTGGATAGA
TCACAAATCAAATATATTTGCGGAGGAACACTTATTTCTAAATATTTTGTATTAACAGCT
GCACACTGCACATCAATAAGAGGAGTTGCGCTTCTACCCGAAGTGTTAAGTGTTGTTCTT
GGTAAATACAACTTAATTGGTGGGGATTTAGCTTCGGAAGAAAGAGAAATTCATCAAATA
ATTGTTCATGAGCAATACGACAAAAGATCGTTGGACAACGACATTGCATTACTGAAATTA
AAAACCGAAGCAGTATTTACTGACTATATTCAACCAGCTTGCTTGTGGTACAGCAAAGCT
TCGGAAAAATTCTCCGGTCGTGAGATAATTGGCAAAGTCGTTGGATGGGGTTTTGATAAT
ACCGATAACTTAGCGCTCAAGCTCCGACAAGCTAGTGTCCCGTTAGTTTCAGATGTTGTT
TGTATCAAAAGTAATGCTGTTTTCTATTCAAGGGTGCTCAATGGCAATAAATTTTGTGGT
GGAAATCACAATGGTACTTCGGCATGTAATGGTGATAGCGGTGGAGCTTTCCAAGTGTTT
ATTCCTGATGATGCACAGGATCAAAGTGTGAACGCGTCAGGAGCTTGGCACGTCCGAGGA
ATCGTGTCGCAGACGATATCAAGATTTGACGTGCCGATATGTGATCCCCACCAATACGTT
GTGTTCACGGATGTAGAAAAGTATAGATCTTGGATCGATAAGCATTTAGAGATAAATAAT
GAAATGTAA

Protein sequence:

MKKKVILLITLVLKFTVCAKAVWTNVGSAYFSVRLCKDSNEISASYESDQPPELENAYDV
HVSILFPKYTTVYIKLDSEGSIKLAEKTYARIYPYDNNEFSIRFFAEHDGLGFKVHGKKI
GVVPYITSLTINSQEYCSKPALGFLDGYVSGYKDYAESENRKLEGNCGRRKVSHTELIVN
GSPTKPGDWPWHTAIYRLDRSQIKYICGGTLISKYFVLTAAHCTSIRGVALLPEVLSVVL
GKYNLIGGDLASEEREIHQIIVHEQYDKRSLDNDIALLKLKTEAVFTDYIQPACLWYSKA
SEKFSGREIIGKVVGWGFDNTDNLALKLRQASVPLVSDVVCIKSNAVFYSRVLNGNKFCG
GNHNGTSACNGDSGGAFQVFIPDDAQDQSVNASGAWHVRGIVSQTISRFDVPICDPHQYV
VFTDVEKYRSWIDKHLEINNEM