MonarchBase - Protein-coding gene

DPGLEAN17986 in OGS1.0

New model in OGS2.0	DPOGS206224
Genomic Position	scaffold1155:+ 4801-14886
	See gene structure
CDS Length	3597
Paired RNAseq reads	145
Single RNAseq reads	355
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA009743 (1e-64)
Best Drosophila hit	CG8213, isoform C (4e-126)
Best Human hit	suppressor of tumorigenicity 14 protein (8e-37)
Best NR hit (blastp)	PREDICTED: similar to CG8213 CG8213-PA [Tribolium castaneum] (1e-168)
Best NR hit (blastx)	serine protease [Aedes aegypti] (2e-125)
GeneOntology terms	GO:0004252 serine-type endopeptidase activity GO:0006508 proteolysis
InterPro families	IPR001254 Peptidase S1/S6, chymotrypsin/Hap IPR018114 Peptidase S1/S6, chymotrypsin/Hap, active site IPR001314 Peptidase S1A, chymotrypsin-type IPR009003 Peptidase cysteine/serine, trypsin-like
Orthology group	MCL13008

Nucleotide sequence:

ATGACGTCTTATAGATGTGTGGTGTGGTGTCTGTTGATTGTGTTAGTTGTGGACATTACA
CCAGTTATTAGTTATGGGAATGCGAGAGATAGGGGCCCCTTAAACCTACACCTGGGTCGC
AAGTCCCAGGCACTGTTGAAGCCCTCTCCCTGCAACGATGGATCCGACACCCGCACGATG
ATCTCATTGAATGATGAAGTTTCGTCTCAGTTCCTCATTCACGTGCGAGATTACCACGAA
AATCTATCGATAACTGTAATTAATCGATACGGTGATACACTCGACCAGCATCCGGAAGCG
ACACTTGACAATTGGAGCATGGGAGAGATGCATTCCACACGCTGCGTGCACACGGCAGCA
GTCCCCGCACTCACACAGCCTAGAACCTCTACATCATCAGATAATGTTCTGAGAAATCCC
TATCTACTGGCAAGCAGAGCGGCGAGGTACAACCGGGGTAACACTATATGCATGTTCAAC
CACGAGTGTGTTCGAAGAGGTGGTGAAGTGGTCGGTTCCTGTATGGACGGCTTCCTGTTT
GGGGCGTGCTGCCAGTTACCTTCCAGCAGTCAGTCACATATACCAAAAGGACCCGGTGTT
GTTATGACGAGCTACATAGACTATCCGGATGCAGAAGCAGAAACTGACGATTACGACGCT
GAACATCTAAGCGCTTACCATAACAGCTTCAAACCTGTAGTGACGCCGGGATATAAGCCT
AGTAGTAGCGTTTCGACGTCCACTGTGAGGTCTGAGTCAGACGCGAGCACGGAGATTCAC
CAAGCTGAAATAATATCCGAAGGTCTCACCCAAATCACAAACACCTTACTAAGTACGCCG
CCCAAGGAGGACAGTTTCATATACATAAAGCCTCAAGGAGTCTACACACACAGCACGATC
AGTCACCCGGTCGCTGATACTATTCTGTTCCACAAGAACGGTTCGATGGTTGACGACATA
GCGAGACCATCAGACTTCAATGTACAAATATCTTCAATGCAAACCAAACCCACCGTGTCG
CCGAGCACGAGTTCGGTCTCGTCTCCCGGTATAATAGTTTCGTCGACGCACAGACCTATA
TTCAAACCGAAGCCGAATAACAAAGTATCGACAAAACGACCGACCACCGACAACTATGTC
ATGGTTCAGACGGTCACCAAAGACGCTCAGAAGGTGCCGGAGCTGTCTTCGATTAACAGC
ATCATACAGATGCTCAATGACAGTACTCCGAGTCTTAGTGATGATGTAAGTTCACCCTCT
TCGATCGATGTCATGGAAACTAAATCCTCGCCGAGCCCTTCCACAGTCACTCCAGTGTTG
TACAGCAGCAGTTACCCTATTTTCACAACCGGACACTACGTCACTTTAAAACCATCTTCA
TTTATAAGTAGCGTCTCACCGATAGCTGGTACAAAGAAACCGTTAACAACTAAAAAACCG
TACATTACAATAAACACCACACCGAACAGTGCGGGAGGAAAGCCGTCGAAGCCTTATAAT
TCTTCTCCCAGACCAAACCAATCAACCAGTCAGGCTATCGAAGCTTTCAATAACTATCCA
ACCGATCCGCAAGACTTTGGACAATCAATCACCACATTCAGCTATGTGAGTTCAACGACA
ACTTTGAAACCAACGTCCACGACCAGAAAACCGCCTTCGACGAGTTACGTAACCGGATCG
AAACCCTTAAGAAGACCAGCTACTCCGCCGACGAGTTTCGTATCTTCCTATGAAGCTGCA
TCAGACACTTTCTCGAGTGTGACCCCAACCGTTATAGTGCTAAATGGACTCAGCACAAAA
CCAGAATCCTCATCAGAGGATACGGAATTTGTTGAAATATCACAGGAGCCCTTCAAGAAA
CCAGTCAGCCAAATTACTGTAAACAACCATATAGAATCTACAAACAATATCTACATGGGT
AAACCGCCGCAGACGTACGATCAACCGAAGCCTTCGAGACCATCTTCTCCTACCGTTGTC
ATAACCCCTAAACCCTCACCAACCACGCCCTATCCCATCAAAGGATCAACTCGTCCCGTT
CCAATCACACCGAACGTGCCTCTCTACGATTCCTACCCAGACTTCTCACCGACAACGACC
TCTAAAACAGAAATGCAGACCTCTCCCGATGACCTCATAAACTTCCCTCCCGTCAGGAAT
CCTCTCCTCAACGCGACGGGATCCAACCCTGCTCTGTATAACACGAGCGTAGCCATTGAC
AACGACTTAGATATTCTACACGACGTAGACTTCTCGACGCCGACCTGGCAGGACGACGAG
AAGCTGGGCGAGAAAATGAACTTGTTCGTTAACAAGATCGTCGGCAGCCTTCAGGGCTCG
TTCCAGGATCTTCACGACATAGTTGTGTTGGATAAGAAACCCAGTTCCACACTGAACCGT
GACAAAACGACAACCGCCAAGCCGCCGAAGAAAACCGTGCCAACAAGAAAACCTGTTACC
ACCAAGAAACCTTTGAGATTGTCCACAACGTCCAAGAAGCCTCCGGTGAAGACGACGAAG
AAGCCGCTCAAGACCACCACCGTCCCCAAGAAACCCACCACGATCACCACTCAGACGCCC
ACCACCACCGTTATAACCACGACCACAACCAAAAAGCCGGTGACCACCACCAAGAAACCC
ATCAAGAGAGTGACCACCAGCCTCGTCACCACCGTCACAGAACAGTACGATGACGTCACC
ACCGAGGGATACTCAGAGCCTATCGATTACAACGACAAGAATTTGTGCGGCGTGCGGCCG
CTGATGAAGTCCGGTCGCATCGTGGGCGGCAAGAACGCCAGGTTCGGGGAGTGGCCCTGG
CAGGTGCTGGTGCGCGAGTCCACGTGGCTGGGCCTGTTCACCAAGAACAAGTGTGGCGGA
GTGCTCATCACCAACAGATTTGTGACCACGGCGGCGCATTGTCAACCCGGGTTCCTGGCG
TCGCTGGTGGCGGTGTTCGGCGAGAACGACATCTCCAGCGACTACGAGCCCAAGAGACCC
GTCACCAAGAACGTGAGGAGAGTCATCGTCCACCGCCAGTACGACGCCGCCACCTTCGAG
AACGACCTGGCGCTGCTGGAGCTCGACTCGCCCGTACAGTTCGCCGCGCATATAGAAAGT
AGGTGGTGTGACTTTATGATGCTGTCTGTATCGTACGTGAGCTCCCCTCCCGCCGACCCC
TACTCGACCCTCCCTCTTCCTATCTGCATGCCGCCTGATGACGCGGACTACACGGGCCGC
GTGGCGACCGTCACCGGCTGGGGCAGGCTCCGGTACGGAGGCGGAGTCCCCGCGGTGCTG
CAGGAGGTTCAGGTGCCGGTCATAGAGAACAGCGCGTGTCAGGAGATGTTCCACACGGCC
GGTCACGCCAAGAAGATATTGAACTCGTTCATATGCGCTGGATACGCCAACGGGCAGAAG
GACTCCTGTGAGGGTGACAGCGGCGGGCCGCTGGTGCTGCAGCGCGACGACGGCAGGTGG
CAGCTGGTGGGGACCGTGTCCCACGGGATAAAGTGCGCCGCGCCCTACCTGCCCGGCGTC
TACATGAGGACGACGTACTACAAACCCTGGCTGAGATCGATCACCGGAGTTCGTTGA

Protein sequence:

MTSYRCVVWCLLIVLVVDITPVISYGNARDRGPLNLHLGRKSQALLKPSPCNDGSDTRTM
ISLNDEVSSQFLIHVRDYHENLSITVINRYGDTLDQHPEATLDNWSMGEMHSTRCVHTAA
VPALTQPRTSTSSDNVLRNPYLLASRAARYNRGNTICMFNHECVRRGGEVVGSCMDGFLF
GACCQLPSSSQSHIPKGPGVVMTSYIDYPDAEAETDDYDAEHLSAYHNSFKPVVTPGYKP
SSSVSTSTVRSESDASTEIHQAEIISEGLTQITNTLLSTPPKEDSFIYIKPQGVYTHSTI
SHPVADTILFHKNGSMVDDIARPSDFNVQISSMQTKPTVSPSTSSVSSPGIIVSSTHRPI
FKPKPNNKVSTKRPTTDNYVMVQTVTKDAQKVPELSSINSIIQMLNDSTPSLSDDVSSPS
SIDVMETKSSPSPSTVTPVLYSSSYPIFTTGHYVTLKPSSFISSVSPIAGTKKPLTTKKP
YITINTTPNSAGGKPSKPYNSSPRPNQSTSQAIEAFNNYPTDPQDFGQSITTFSYVSSTT
TLKPTSTTRKPPSTSYVTGSKPLRRPATPPTSFVSSYEAASDTFSSVTPTVIVLNGLSTK
PESSSEDTEFVEISQEPFKKPVSQITVNNHIESTNNIYMGKPPQTYDQPKPSRPSSPTVV
ITPKPSPTTPYPIKGSTRPVPITPNVPLYDSYPDFSPTTTSKTEMQTSPDDLINFPPVRN
PLLNATGSNPALYNTSVAIDNDLDILHDVDFSTPTWQDDEKLGEKMNLFVNKIVGSLQGS
FQDLHDIVVLDKKPSSTLNRDKTTTAKPPKKTVPTRKPVTTKKPLRLSTTSKKPPVKTTK
KPLKTTTVPKKPTTITTQTPTTTVITTTTTKKPVTTTKKPIKRVTTSLVTTVTEQYDDVT
TEGYSEPIDYNDKNLCGVRPLMKSGRIVGGKNARFGEWPWQVLVRESTWLGLFTKNKCGG
VLITNRFVTTAAHCQPGFLASLVAVFGENDISSDYEPKRPVTKNVRRVIVHRQYDAATFE
NDLALLELDSPVQFAAHIESRWCDFMMLSVSYVSSPPADPYSTLPLPICMPPDDADYTGR
VATVTGWGRLRYGGGVPAVLQEVQVPVIENSACQEMFHTAGHAKKILNSFICAGYANGQK
DSCEGDSGGPLVLQRDDGRWQLVGTVSHGIKCAAPYLPGVYMRTTYYKPWLRSITGVR