MonarchBase - Protein-coding gene

DPGLEAN10892 in OGS1.0

New model in OGS2.0	DPOGS206129
Genomic Position	scaffold4:+ 198274-208802
	See gene structure
CDS Length	3102
Paired RNAseq reads	1390
Single RNAseq reads	3454
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA000719 (0.0)
Best Drosophila hit	S1P (0.0)
Best Human hit	membrane-bound transcription factor site-1 protease preproprotein (0.0)
Best NR hit (blastp)	hypothetical protein TcasGA2_TC002816 [Tribolium castaneum] (0.0)
Best NR hit (blastx)	hypothetical protein TcasGA2_TC002816 [Tribolium castaneum] (0.0)
GeneOntology terms	GO:0008233 peptidase activity GO:0005789 endoplasmic reticulum membrane GO:0006508 proteolysis GO:0005783 endoplasmic reticulum GO:0005788 endoplasmic reticulum lumen GO:0004252 serine-type endopeptidase activity GO:0005634 nucleus GO:0042990 regulation of transcription factor import into nucleus GO:0005794 Golgi apparatus GO:0008202 steroid metabolic process GO:0016021 integral to membrane GO:0005795 Golgi stack GO:0008203 cholesterol metabolic process GO:0016020 membrane GO:0000139 Golgi membrane
InterPro families	IPR022398 Peptidase S8/S53, subtilisin, active site IPR000209 Peptidase S8/S53, subtilisin/kexin/sedolisin IPR015500 Peptidase S8, subtilisin-related
Orthology group	MCL13963

Nucleotide sequence:

ATGGGGCTCGTTCAACTTGTTTATTTGTTTTGGTTAAGTTATTATAATTTTGTGGTTTTT
GCTGAGGATACCAATATCCTTTGTAATGTGACGGTTAACGAGCGTTTGGAATATAAATTT
GATTCAGATATTGTCAACACTGAACATATAATTACATTCAAAGGATATTATTCCAAAACT
ACCAGAGAAAACTATGTGAATGCTGCACTGAAAAATGCCCAGGTATCAAATTGGACCATA
CTCCAGCGTAATAATCCCGCTATGGAATATCCTAGTGACTTCGACGTCATAGTGTTCGGG
GAGAAGATAAGGGAGGGGATCGATGCTTTACGTGACCACCCAGCTGTACGCCGGGTAACT
GCGCAGCGGCAGGTGCAACGGACCATAAAATACGTGCGCGAGGATGACTGTGGGCCGTCT
GGTTGCATGTACTCCGGATGGAGGAACCACCGCCGTTCGAGGGTGCTTCATTCATTACGT
AAAACTAGAGAAAATGGAGGCTACACCTCTAGAAAACTTCTCCGTACTGTACCTCGTCAA
ATAACATCTGTTCTGAAAGCTGATCTGCTGTGGTCTTTGGGAGTAACCGGGGAGGGCATC
AAAGTGGCGGTGTTCGATACGGGACTAGCGCGACACCATCCCCACTTCGGGCGGGTTAGG
GAGCGTACAGACTGGACCGGCGAGAATACATTGGACGATGCCTTAGGTCACGGCACCTTC
GTAGCTGGTGTGATAGCGTCTCGTTCGGACTGCCTCGGCTTCGCTCCGGACGCGGACCTA
CACATCTTCAGAGTTTTCACAGATAATCAGGTGTCATACACTTCGTGGTTCCTGGACGCA
TTTAACTACGCCATAATGCGTAAGATAGATGTCCTGAACCTCAGTATTGGTGGTCCAGAT
TTTATGGACCATCCGTTTGTGGATAAAGTATGGGAACTTAGCGCTAACAAGGTTATAATG
GTCTCTGCTATCGGCAATGACGGCCCATTATACGGGACCCTGAACAATCCAGCTGATCAG
ATGGATGTCATCGGAGTGGGAGGCATCGGGTTTGATGATCGCATCGCCAAGTTCTCGTCG
AGAGGCATGACGACCTGGGAATTACCTTATGGCTACGGTAGAATGAAACCAGACATCGTG
ACCTATGGCAGCGGCGTCCGTGGTTCAAGCGTTAATGGCGGCTGCAGATCACTCAGTGGT
ACGTCTGTAGCTTCCCCAGTGGTCGCTGGTGCTATAGCACTCCTCGCTAGTGGTGTTCCC
CGTCAGAATTTAACACCAGCTGCTGTCAAGCAAGCTTTGTGCATAACAGCACGCCGTTTG
CCCGGTTATAATATGTTTGAACAGGGACACGGGAAACTAGACCTTATTAGCGCGTACCAG
TTTCTTCGCGAGTACGAGCCGCAAGCGACTTTGAGCCCATCATACATTGACCTCACCGAG
TGTCAGTACATGTGGCCGTATTGCACTCAGCCGCTCTACTATAGCGCTCAACCCACCATC
GCCAACGTCACCGTTATCAATGGGCTCGGCGTGGTGGGTGAAGTGAAAAAGGTCAGCTGG
CATCCTCATTTGCCTCACGGTACAATACTGGCTGTTGGGGCGGACTACAACGAAGTGCTT
TGGCCTTGGTCCGGATGGTTGGCACTCAGCTTCACAGTTTTGGAAGCGGGCGCTAACTTC
GACGGCGTCGTTGAAGGTCACATGAACATTACGATTGAGAGTTACGACGAGGTCAATGAC
CGTGTCATGAAAAATACGACTCTCATGCTTCCAATACGTGCTCGCGTTATCCCGGTGCCA
GTACGCGGTCGTCGTCTGTTGTGGGACCAGTTCCATAGTCTCCGGTACCCTGGCGGTTAC
TTCCCGAGGGATGATCTTCGTGCCAAACACGATCCACTCGATTGGCACGCCGACCACGTG
CACACCAATTTTAGAGACATGTATAGAAGATTAAGGGAGCATGGATTTTATGTCGAGGTT
ATGGGTAATCCCCTAACTTGTATCGACACTTCGTTGTATGGAGCGTTGCTGCTCGTTGAT
CCCGAGGACGAATACTTCCCCGAAGAAATGGCGACTTTGAAGAGGGCTGTAGACTCCGGT
CTTTCACTGATTGTTTTTGCGGACTGGTACAATGCTTCCCTGTTGAGACACGTCAAATTC
TATGATGAAAATACACGACAATGGTGGATTCCTGAAACTGGTGGTACAAACGTTCCGGCG
CTGAACGACCTACTAAGCATGTTTCAAGTAGCGTTTGGTGATCGCGTGTTTGAGGGGTCG
TTCAAGTTGGCTGGCCATCCAATGTACTACGCTAGCGGCACACACATACATAGCTTTCCA
GAACATGGTGTCTTGGTGTCAGCGAAGCTATCGGATCAGGGGCAGCAGATAATGTCAGGC
GAAAAGTCTGGAGGGGGTCAGACTCGTAAGACGGTGGAAGTGCCGATATTGGGATTGCTG
CAGACTGACCCTGAAACGCGTGACTACACCAATGACACTAATGATAAACTACCCAAGGCT
GGGCGATTGGTTGTTTACGGCGACTCCTCCTGTCTGGAAGGAGGAGCGGCCAGACCTTGT
CACTGGTTACTTCTGGCAGCTCTGCAATACGCATTGGTCGGACATATGCCGTCATCGCTC
TTGGACGCAACGACATCTACACAACACAGAGACGTTAACATAATACCATCAGATCTCCCG
AAGCGTGCTGAAGGTGGTCGTCTCCACGCGTACTCTCGGGTTCTGTCACCAGATGGCAGC
GGTCCGAGACCATTGCCCGATTGCGTGGTGACAAACCCCATGGACCCTGAACCCGTACAT
GCACCACCATCCGCTAGGACCCTTGCACCAAGACACAAACCCACCGACCCCAAGAGCATT
GGCGCACCGGAAATCGAAGGCACGGAAGCAGCACCCCGAGCGTGGCGTGGAGCTGGAGTC
GCAGCAGCTCGCAGCGTCGAGGCCGATCCCATCCAGACATCATTCATCAGTCGACTCATA
TCAATATGCTCCGTGTTCGTGATAATATATTGCATTGCTGTATTCTGGAAACGATGTGCC
CGTATTATCAAGAGACGCAGACTTGTCTCACTGGCCACCTAG

Protein sequence:

MGLVQLVYLFWLSYYNFVVFAEDTNILCNVTVNERLEYKFDSDIVNTEHIITFKGYYSKT
TRENYVNAALKNAQVSNWTILQRNNPAMEYPSDFDVIVFGEKIREGIDALRDHPAVRRVT
AQRQVQRTIKYVREDDCGPSGCMYSGWRNHRRSRVLHSLRKTRENGGYTSRKLLRTVPRQ
ITSVLKADLLWSLGVTGEGIKVAVFDTGLARHHPHFGRVRERTDWTGENTLDDALGHGTF
VAGVIASRSDCLGFAPDADLHIFRVFTDNQVSYTSWFLDAFNYAIMRKIDVLNLSIGGPD
FMDHPFVDKVWELSANKVIMVSAIGNDGPLYGTLNNPADQMDVIGVGGIGFDDRIAKFSS
RGMTTWELPYGYGRMKPDIVTYGSGVRGSSVNGGCRSLSGTSVASPVVAGAIALLASGVP
RQNLTPAAVKQALCITARRLPGYNMFEQGHGKLDLISAYQFLREYEPQATLSPSYIDLTE
CQYMWPYCTQPLYYSAQPTIANVTVINGLGVVGEVKKVSWHPHLPHGTILAVGADYNEVL
WPWSGWLALSFTVLEAGANFDGVVEGHMNITIESYDEVNDRVMKNTTLMLPIRARVIPVP
VRGRRLLWDQFHSLRYPGGYFPRDDLRAKHDPLDWHADHVHTNFRDMYRRLREHGFYVEV
MGNPLTCIDTSLYGALLLVDPEDEYFPEEMATLKRAVDSGLSLIVFADWYNASLLRHVKF
YDENTRQWWIPETGGTNVPALNDLLSMFQVAFGDRVFEGSFKLAGHPMYYASGTHIHSFP
EHGVLVSAKLSDQGQQIMSGEKSGGGQTRKTVEVPILGLLQTDPETRDYTNDTNDKLPKA
GRLVVYGDSSCLEGGAARPCHWLLLAALQYALVGHMPSSLLDATTSTQHRDVNIIPSDLP
KRAEGGRLHAYSRVLSPDGSGPRPLPDCVVTNPMDPEPVHAPPSARTLAPRHKPTDPKSI
GAPEIEGTEAAPRAWRGAGVAAARSVEADPIQTSFISRLISICSVFVIIYCIAVFWKRCA
RIIKRRRLVSLAT