MonarchBase - Protein-coding gene

DPGLEAN18706 in OGS1.0

New model in OGS2.0	DPOGS215548
Genomic Position	scaffold227:- 35676-42111
	See gene structure
CDS Length	2556
Paired RNAseq reads	1186
Single RNAseq reads	3562
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA002282 (1e-89)
Best Drosophila hit	Gram-positive specific serine protease, isoform B (2e-09)
Best Human hit	granzyme M precursor (4e-07)
Best NR hit (blastp)	seminal fluid protein HACP038 [Heliconius erato] (2e-152)
Best NR hit (blastx)	seminal fluid protein HACP038 [Heliconius erato] (1e-153)
GeneOntology terms	GO:0004252 serine-type endopeptidase activity GO:0003824 catalytic activity GO:0006508 proteolysis
InterPro families	IPR001254 Peptidase S1/S6, chymotrypsin/Hap IPR009003 Peptidase cysteine/serine, trypsin-like
Orthology group	MCL39650

Nucleotide sequence:

ATGAAGTTGCACAGTTATTGTACATTTTTTTATTCAATATGTATTTTGTTATATTCAGCC
GTTGTAGTTAATTCAATAGATGTAGTAACAACAATTCCTTTGGATGTCCAGAGAGTTTTA
CACAAAACTAATATTAGTGAAATAAGAGCTCATCTAAACGGATCTAGAAGAATCATATCA
GGACTAGAAGCTCATAATAACAGACCATATATGGTTTATTTAAAACTACCGTCAAACAAT
CCCAAATACAAGAACTACCGTCACTGGTTATGTGGTGGTGTGATTATACATGACCAATAC
GTCCTAACATCCGCCGCTTGTATAGAAGACGCGAAACATTTCTATGTCGTTTCTGGCACA
TACAGGCACAACGATGAAGACGATCGTTTTAATAATATCTGTCTCAAAAATGGCGCCAAG
AAGGCCATTTGGAAATGTATTCCAAGAAACTACGTGTTCGATGGCCACGAGAACGACAAT
ATACGTTGGATGAACAATGACATAGCGATAGTTAAAGTTGAAGACGAGTTCGACTTTAAC
CGTCGTGTGAGAGGATGTGACTTCGTCCCTCGACCGATATGTTACAACAACCAAACCAGT
CGCTACGAGGATCCAGGGAACGTGGCCTCAATCGCCGGATGGGGCAGCACTGATAAATAC
AATGATTGGGTAAACAAAGGAGGTTCGTCGACATCACAGGATTTATTAGAGGCAGATGTT
GTTATCATCACCAAGAACAACTGCAAGCGTCAATGGGGTCCTCGATACCACAGTATCATA
GATAATTATATGATCTGCTCTAGAGACACCATACCAGAGCTGAGCGAAGTCTGTAATGAG
AAATATGTTGAGTGTACAGATATAATGTACTCTATGGAAGAATCACGGAGAGTTAACCCG
AGTGAGTTGAGACTTCACTCCGCCTTTCATAACGATTCGGGGAGACGACAGGAGGCCGGC
AGTGGAGGATTTTGTGAGAACGACCACGGCGGCCCATTAATTTATGGGCAGGGTTCTAGC
GCAATAGTCATAGGCATCATATCGGCTTGCCTCGTTAAAGAACGCACCAACAAATGCTAT
GGACCTTATCTGTACACGAGCGTCTACAAGAACCGCATGCTCATCAACTGTGCCATCTAC
AAGGATATCGCAGGCGATTGCACAAAACTATTTAGAGCTAGCGACACCCACATCGAAGAG
CACATAAGTTGGGCTGATCATCCTGATGGCCCAGCCAAAAACGAAATATCAAAAATGAGG
CGAACGGAAGAAGAGAAAATCAAAAATAATACGTTGAGGTCGAATAGAACAGAACACAAA
CCGCCGTTAGACAAAGTTATCAAGCACGGCGGTGTCGTGTTAAGGGCGTTTGACGATCGT
GAAGACTTCAATGAAATTCTAGATACAGATGCAGTCGAAATCGCAACTCACATACCACGA
GTTGTTGAAAATTTACTCAAAGACAATGAAACTCGGAGAATTATCAACGGAGACGAAGTC
ACAGACGGTAGACCGTACATGGTATATCTAAAATTACCACGGAATAGCAAGAAAACACAA
AATTATAGATCTTGGTTGTGTGGAGGTGTGATTATTCATGAAGAGTACATCTTAACATCA
GCCGCGTGCATTGAAGATGCTGAACATTTTTATGTTGTATCTGGAACGTATAAATATTCA
GATGAAGATGACAGATATAATAATCCCTGCATCAAAAACGGTGCAAAGAAAGCGATTTGG
AAATGCGTCCCGAAAAATTATGTCTTCGACGGTCACGAAAACGACAATATTAGGTGGATG
AACAATGACATCGCTGTTGTCAAAATCGAAGATGGATTCGATTTCAGCCGACGGGTCAGG
GGATGTGACTTTGTACCCAAACCTATCTGTTATAATAATCAGAGTCAAACGTTAGAAAAT
CCTGGTACTGTAGTGTCTATCGCCGGATGGGGAACCACATCGAGATATAACGATTGGGTA
AATAGAAGGAAGGACAACCAGCAGAACCTTTTAGAAACTCACGTTGAAATAATACCTAAG
AACAGATGCAAACGAAGATGGGGAGCCAGATATCATAATATCATTGAGAATTACATGATC
TGTACCAAAGACATAGGACAGACGATGTCTGAAATTTGTAATGAAAAGTACGTAGACTGT
CAAGACATAAGCTACTCCGACGAAGATGACGCAAGGCGAGACACAAGAATCCAGAAAAAG
ACAAAGTTCCTACAAATCTTTCGATGCACTCAGCATATCATAATGATAGCAGACGATTTA
CATCGCAAGCTGATGGTGGATTCTGTGAGACCAAAATGTAGGCGGCAGTTTAGATCTGGT
GTGACTCACGTCGAGAAAGTACTAACATGGAAAAATCATCCTGACGGACCAGCCAAGAAT
GAGCTCGGACCTGGTCCAGTGAAAGCACAAAAAATAGTTCAGAGAGCGAACGAGAATCCT
GAGGGGGACAAGGTCTTCGCTGGTAGTGGGTTCATATTACGACCAGAAAATGACGGGAAA
CCAGCTTCAGTAGTGAACGCTACCCTCACAGCTTGA

Protein sequence:

MKLHSYCTFFYSICILLYSAVVVNSIDVVTTIPLDVQRVLHKTNISEIRAHLNGSRRIIS
GLEAHNNRPYMVYLKLPSNNPKYKNYRHWLCGGVIIHDQYVLTSAACIEDAKHFYVVSGT
YRHNDEDDRFNNICLKNGAKKAIWKCIPRNYVFDGHENDNIRWMNNDIAIVKVEDEFDFN
RRVRGCDFVPRPICYNNQTSRYEDPGNVASIAGWGSTDKYNDWVNKGGSSTSQDLLEADV
VIITKNNCKRQWGPRYHSIIDNYMICSRDTIPELSEVCNEKYVECTDIMYSMEESRRVNP
SELRLHSAFHNDSGRRQEAGSGGFCENDHGGPLIYGQGSSAIVIGIISACLVKERTNKCY
GPYLYTSVYKNRMLINCAIYKDIAGDCTKLFRASDTHIEEHISWADHPDGPAKNEISKMR
RTEEEKIKNNTLRSNRTEHKPPLDKVIKHGGVVLRAFDDREDFNEILDTDAVEIATHIPR
VVENLLKDNETRRIINGDEVTDGRPYMVYLKLPRNSKKTQNYRSWLCGGVIIHEEYILTS
AACIEDAEHFYVVSGTYKYSDEDDRYNNPCIKNGAKKAIWKCVPKNYVFDGHENDNIRWM
NNDIAVVKIEDGFDFSRRVRGCDFVPKPICYNNQSQTLENPGTVVSIAGWGTTSRYNDWV
NRRKDNQQNLLETHVEIIPKNRCKRRWGARYHNIIENYMICTKDIGQTMSEICNEKYVDC
QDISYSDEDDARRDTRIQKKTKFLQIFRCTQHIIMIADDLHRKLMVDSVRPKCRRQFRSG
VTHVEKVLTWKNHPDGPAKNELGPGPVKAQKIVQRANENPEGDKVFAGSGFILRPENDGK
PASVVNATLTA