MonarchBase - Protein-coding gene

DPGLEAN18336 in OGS1.0

New model in OGS2.0	DPOGS214588
Genomic Position	scaffold437:+ 7194-17268
	See gene structure
CDS Length	4323
Paired RNAseq reads	2683
Single RNAseq reads	6370
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA005119 (3e-13)
Best Drosophila hit	CG5639 (2e-94)
Best Human hit	nidogen-2 precursor (8e-09)
Best NR hit (blastp)	PREDICTED: similar to CG5639 CG5639-PA [Tribolium castaneum] (0.0)
Best NR hit (blastx)	PREDICTED: similar to CG5639 CG5639-PA [Tribolium castaneum] (0.0)
GeneOntology terms	GO:0004867 serine-type endopeptidase inhibitor activity GO:0005576 extracellular region
InterPro families	IPR002223 Proteinase inhibitor I2, Kunitz metazoa IPR008197 Whey acidic protein, 4-disulphide core IPR000716 Thyroglobulin type-1 IPR018112 Proteinase inhibitor I15, antistasin IPR004094 Proteinase inhibitor I15, antistasin-like IPR011061 Proteinase inhibitor I14/I15, hirudin/antistatin IPR020901 Proteinase inhibitor I2, Kunitz, conserved site IPR006150 Cysteine-rich repeat
Orthology group	MCL16971

Nucleotide sequence:

ATGGCGCCGAAAGCCGTTAGGGTGGCGTTGTTCTGCGCTTGCCTAGTCATACTACAAGTG
AGCGCCGAATTGAAGGGCCGTTGTCCGGCTGACGAGGAAACCTGTCCTCCTCGTGCGACG
CCATGTAATGACGACAACGACTGCGGGCATCAGATCTGTTGCAACACCTCCTGTGGGCGA
TCCTGTGTGGAGCCGCTCTACACCGGATGTGAGAACATAAAGCTGTCTTCGGAGCGAATA
TCCCGTGCTCTGGCTGCTGAGAACACACGCAGCGGGCGAGGTGTGATGAGGTCGCTGCGA
TCTCCTCGCTGCAAGGTCTCTGATGGAGAGTTCGAAGAAATACAATGTGATAACGAGATC
ATAAGCTCGTGTTGGTGCGTGGACGCCGCAGGCTTTGAGGTGCCGGGTACCCGCGCTCCC
GCAGCGGGTTTAGTGAACTGTTCACGAACAGCGCCCTGCGCGGCGCACACTTGCCGCATG
CTGTGTCCACTCGGCTTCGAACTGGATCCTAACGGCTGTCCGCTCTGCAAGTGTCGCGAC
CCTTGCTCCACCATCACCTGTCCCAACCAGCTATCCTGTCAGTTGGAAGAGATGCCGTGC
TTACGTCCACCCTGTCCCCCAGTACCCACTTGCAAAAGGGGTCGCAGCCTCCAAAACATA
TGTCCGGTAGGCGAGCCACTTTTCATATCGGAAACGAGACGTCCATTCCTGTGCGGTACG
GATCCAGGGAAACCGAACTGCCCGCCTCTGTATAAATGCCTCGTCGAATCTGGCAACGAC
TACGGCGTCTGCTGTCCAGCGTCACTTGAACTACAAAAGGCCGGTACCTGTCCCGCTCCG
AAGTCTTCTGGAATGGACTGTGGGACTCCCTGCGTTCATGACCTCGAATGTCCGTCAATG
CAGAAATGCTGCGACGGTGCTGAATGTGGGAGACATTGCGTTCTGCCCCACAACGTCACT
ATCTGCACTCAGCAGAAAATGCTCGCTGAATTACTGGTTGTTAGCGAGAAAGAAGGTAGA
GGATACGTGCCGCAGTGCACGTCTGACGGGTCCTTCCTGTCAAGACAGTGCTCGCGGAAC
GGGCTCGTGTGTTGGTGTGTAGACACAGACGGCAATAAACTCCGAGGCTCTATGGGACCG
TCGGAAACCGTGAAGTGTTCTGCCAAACCCCATCCAGCTCGTACTGGTGCTAGAAGTATT
AGTTCCTGTGCGAGGGCCCTCTGCGCCGGGGTCTGCGAGTACGGCTACAAGACCGGCGGC
GACGGGTGTCCGAGCTGCGAGTGTGACGATCCCTGTGCTGGGTTCCCCTGCGCAGAGGGA
GAGGAGTGCGTGCGAGTCCGGGACGCTGATTGCTCTGGAGAGCTTTGCACTGGTTATCCT
GTCTGCCGTCCTAAAATCTCGTATGAGAATCCGTGCTCTGTGGGTGTACCGGCGACGGAC
GAGCGCGGGGCGGTGTTAACTTGCAGGGAAGGGGGTGAGTGCGGGGAGGGACACAGCTGC
ACCCGCGGGGGGAGACACGGGCCAGCCGTCTGCTGTCCGCAACCGGATACTGACACGGAT
AATACCACTGAACCGGAAATACTCGAGATCAACTTCGAAGCGTGTGGTCCGGAGGCTGAA
GCGCTCTGCGGAGTGAACTCCACATCCAGCTGCTCGGACGGTGTTTGTGACGGGGACCTG
GAGTGCTGCGTGACGGCGGGCTGTGGGCCTGTTTGTGTGGACCAAGACAAATTAAGACTA
CAGACCGACATTGTTGACGATACGCCCTCTATGTGCGAATACCTCCGAGACTTCGACGAA
AAGATGGAAGGTACGGTGGACGGCATGAAGCTGGCTCTTCCGGCGCCGAGCTGCAACCCA
GACGGCAGCTTCACGCCGCAGCAGTGTGCCGGCGGACGGTGCTGGTGCGTCGACTCCTTC
GGCACTGAAATACCTGAAACGAGCACCAACAACGCATCCGCCGTGGACTGCGACAAGGTG
CGGTCGGAGCTTTCCTGCCTCGAACTGACGTGTCGCATGGGTTGCGACTACGGCTTCGAA
CTGGGCTCCGGGCGCTGTCCCACTTGTAAATGCCGCGACCCTTGCGCCGGCGTCTCGTGC
CCCACGGGCCGGGCCTGCGCCCTCGTAGATGTAGCCTGCGACGCGGATTACTGCCCTCCG
GTACCTGCGTGTCTTCCGCGGAAGTCAGGTCAGTGTCCGTATCTGGTGCCGTGGACGGGG
TCGTGTGAATGGTCGTGTCGCTCGGACGCGGAGTGCGCCGGTGACGCGAGGTGCTGCGCC
ACGGGCTGCGGAACAGCCTGTGCCGAGCCGCTGAGACAGACTGGCTGTCAACAGAGACGT
GCTCTTGCTTTACACACGGCTGCGGAAAGCGGAAACCCACCCTCGTGGTCGTGGGTCCCT
CGCTGTAAGGAAGACGGCTCGTATGAAGGCATCCAGTGCAGAGGATCCACCAACATCTGC
TGGTGCGTGGACGGCGTTGGCAATGAGATCCCCGGCACTCGTACAAACAACTCTTCACCA
AACTGCACCGCGCCAACTCAGTGCCCAGACCCTAAGTGCGATGAACAGGCAATGTGTCCT
CACGGCCGGGAATTAAACGAGAAAGGTTGTCCAACGTGCATCTGTAAGGACCCGTGCGCT
GATGCCAAATGTAGAGAAGACGAGACCTGCGAGCTGGTGCCTTTAGAATGCGAGGGTGAA
ACATGTCCACCGTTGGCCCGCTGCTCGCCGTCTCCTCAGTGTCCGTCAGGGGAGCCTCTC
CTGGCCCCCGGTGGCGGAGCCCTTCCCTGTGGCCCCCGCGCCGCCGCCTGCCCCTCTACA
CACGCCTGTCGGTTCGCTCCCCACGACGCCAAACCAGCCGTCTGCTGTCCAAAGCCTCGA
ACTGTGTGTTTGGAGAATAAAGACGAGGGTATATGCGAGGGGTCAGGTCTGAACGTGACG
CGCTGGCATTTCAACTCGGCTAAGAACAGATGCGAGCGTTTCCTGTACCACGGCTGCTCT
GGGAATCACAACAACTTCCGGACCAAGGAAGAGTGCAATGCCGTCTGTCCCGTGTTAAGT
CCATGCGAGAGACTACGCGAGAAAAACGAAGCAACCGCCTTGAGGTATGGAAAGGGAACC
TTCATACCGGCGTGCGAGGAAAGTGGAGCTTGGCAGTCCGTGCAATGTATGGCGCATATT
GACGTCTGCTGGTGCGTGAACGCTCGTGGCGAACCGCAAAAGGGCTCGCTTCTCCGCGGA
GGGAAGCCGTCTTGCAACTTCCGACAAGCACGGAAATGGATACGACGCGACCCGCTGGAT
GAAAAAGACAGAGCTGATGAAGTATTAGAAGAACTGATCAGGCAGATGACAACATATAGA
GTAGATGATTTCGAAGAACAAGATGAAGAAGATTCCATAGAGCTGGAGGCTGAACACCGT
GAAGGCAATGATCTCCAGGATGTGTCCAGCGAAGACAGCTCCGTGCTGTCGGAAGTCGTG
GTCCCGAAACTGGCGGAAACTATACGGAAGACACACCCGGTGCTGGTGACGCCGGTGTCA
GAACAAACTGGTCTTAAGACAAAGTGTCAACTGATGCAGGAAGAAGTTGATAATGGTGGT
GACGGCTACCGTCCTCGCTGTCACCCTGACGGATCGTTCGCTGCACGTCAGTGTGGAAGA
AATCGGTGCTGGTGTGTAGACGCCGCGGGACGGACGCGACACGACACCACACATGCCGAC
CCTTGCGAGGTCACCCAAATAGAGTCCGCTCTGCTAGAGTTGGAATTGATCGGTACAGAG
GAAGACGGAAAGAAGACTCAGAATCTTCTCACAACGAAGCTATCAGCACTAGGTGTTCGA
GTGCCAGTGACTATGACAAGAGAAAAGGGCGTGGTGAGGCTGCGGGCGGTGTTGCCAGGG
TCAAGGGCCGCTGACGTGGTCTATCAGTTGGAAGCACAGGTGAAGAAGGAGAAACTTTTA
AACGCCAACAAATCTGAAGATGGAGTGCTTGGAGCTGATGTTATTCGTAGCGAGTACCGC
CTCGCGCCGCCGCGCACGCTGCAGAGAGAGATACTCAGCGAGTCGACGGTGTCGGCTGCT
ACGTCGTATCACACAGCTCTGATCGTTCTAGCGGCCACCTCGGCGTTCATCATCAGCGTG
CTCTGTGTGCTGGTGATGTTGTACCGCGCACGTCTGCAGCGAGAGCCGCATAAAGCTGAA
CGCTTCCTGCCTCCCGCACCGCCTGTGTACGTCCTATCGGCGGATGAGAAAGCTGAACTG
GCGAGAGCGCTACACGCTCCACCAGCCCCGGTACCGCCAGCGAACGCTGATGAAAGAGTG
TAA

Protein sequence:

MAPKAVRVALFCACLVILQVSAELKGRCPADEETCPPRATPCNDDNDCGHQICCNTSCGR
SCVEPLYTGCENIKLSSERISRALAAENTRSGRGVMRSLRSPRCKVSDGEFEEIQCDNEI
ISSCWCVDAAGFEVPGTRAPAAGLVNCSRTAPCAAHTCRMLCPLGFELDPNGCPLCKCRD
PCSTITCPNQLSCQLEEMPCLRPPCPPVPTCKRGRSLQNICPVGEPLFISETRRPFLCGT
DPGKPNCPPLYKCLVESGNDYGVCCPASLELQKAGTCPAPKSSGMDCGTPCVHDLECPSM
QKCCDGAECGRHCVLPHNVTICTQQKMLAELLVVSEKEGRGYVPQCTSDGSFLSRQCSRN
GLVCWCVDTDGNKLRGSMGPSETVKCSAKPHPARTGARSISSCARALCAGVCEYGYKTGG
DGCPSCECDDPCAGFPCAEGEECVRVRDADCSGELCTGYPVCRPKISYENPCSVGVPATD
ERGAVLTCREGGECGEGHSCTRGGRHGPAVCCPQPDTDTDNTTEPEILEINFEACGPEAE
ALCGVNSTSSCSDGVCDGDLECCVTAGCGPVCVDQDKLRLQTDIVDDTPSMCEYLRDFDE
KMEGTVDGMKLALPAPSCNPDGSFTPQQCAGGRCWCVDSFGTEIPETSTNNASAVDCDKV
RSELSCLELTCRMGCDYGFELGSGRCPTCKCRDPCAGVSCPTGRACALVDVACDADYCPP
VPACLPRKSGQCPYLVPWTGSCEWSCRSDAECAGDARCCATGCGTACAEPLRQTGCQQRR
ALALHTAAESGNPPSWSWVPRCKEDGSYEGIQCRGSTNICWCVDGVGNEIPGTRTNNSSP
NCTAPTQCPDPKCDEQAMCPHGRELNEKGCPTCICKDPCADAKCREDETCELVPLECEGE
TCPPLARCSPSPQCPSGEPLLAPGGGALPCGPRAAACPSTHACRFAPHDAKPAVCCPKPR
TVCLENKDEGICEGSGLNVTRWHFNSAKNRCERFLYHGCSGNHNNFRTKEECNAVCPVLS
PCERLREKNEATALRYGKGTFIPACEESGAWQSVQCMAHIDVCWCVNARGEPQKGSLLRG
GKPSCNFRQARKWIRRDPLDEKDRADEVLEELIRQMTTYRVDDFEEQDEEDSIELEAEHR
EGNDLQDVSSEDSSVLSEVVVPKLAETIRKTHPVLVTPVSEQTGLKTKCQLMQEEVDNGG
DGYRPRCHPDGSFAARQCGRNRCWCVDAAGRTRHDTTHADPCEVTQIESALLELELIGTE
EDGKKTQNLLTTKLSALGVRVPVTMTREKGVVRLRAVLPGSRAADVVYQLEAQVKKEKLL
NANKSEDGVLGADVIRSEYRLAPPRTLQREILSESTVSAATSYHTALIVLAATSAFIISV
LCVLVMLYRARLQREPHKAERFLPPAPPVYVLSADEKAELARALHAPPAPVPPANADERV