MonarchBase - Protein-coding gene

DPGLEAN20951 in OGS1.0

New model in OGS2.0	DPOGS202595
Genomic Position	scaffold509:+ 14946-20214
	See gene structure
CDS Length	3963
Paired RNAseq reads	643
Single RNAseq reads	1743
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA011587 (5e-20)
Best Drosophila hit	CG14470 (3e-140)
Best Human hit	serpin B12 (1e-11)
Best NR hit (blastp)	serpin-27 [Bombyx mori] (0.0)
Best NR hit (blastx)	serpin-27 [Bombyx mori] (0.0)
GeneOntology terms	GO:0004866 endopeptidase inhibitor activity GO:0004867 serine-type endopeptidase inhibitor activity
InterPro families	IPR000215 Protease inhibitor I4, serpin
Orthology group	ND

Nucleotide sequence:

ATGCGGGTTATTATATACGTGCTCGTTGCCGCTGTTTGCGTTAGCGCACAGAGTAATCAG
ATCAGGCGCACGAAGCTTCCGTACGTAGCTGACGCGGTTGGAAATAGTCTACCTCCTCCA
TCGAGTGGTCCAGCGACCGTCGGGAGCCCCGTGAACTTATTAACCCCAGATAAATATGAG
TTTTATACTTTTGATGAATCTGGTGAACTGGTTAAAAGATTAATGACTTTAGAAGAAATA
CAAGCAATAGTAGCAGCAGGTGAAGAAACAGACGGTCTGGTTACTTTCGCTAATGATAAT
TTACCGACATTAACATTTAACTTTAGTCAACCTTCACAAACTAAAGTACACAATGTTGTT
GCGAACGTTCAAAATGTTCTTAAAGCACAAATGGAGGCTCATAAAAATAAACCTTATATT
CAACCAACGTTAGATACACCAGACGTGTCAGATTCTTGGAGTTTGATACTGCCATCAATA
TTTGGTAATACTGGAATGGACATAGTCCCAGATAAATTATCGGATTCTTTTATCACGCCA
GAAACCGAAACAATGGATATTAATAGTTTCAATAAGGAAGGTGTGAATTCACAAAGTAAA
GAAAGCAACGATATACCAATACATCCAAATTCAGAGACGAATAAAAATACTGGTATATTT
GAAAGTACAACCGAAATACCTTCTACTACAAACAAATCTTTAGAACCAACTTCATCACCG
ATTACAACAACAACAACAACAACAACAACAACACAAAAACCCATTTCAACCACAAGACAG
GAAATCTTAACTACGACTCAAAAGCTGTCCTCAACTACTGTAAGGCCGACTACAACTAGA
AAAATTGACTTGGAAGCAAAACCGATGTATAAACCTAAAGAAAATTCGACAGATTCTACA
AAAATTTCCAATTCTACTGAGGAATACAAAATTATGTCAACAAAACAACCATTTACTGCC
ATATCTAGTGAAGGTACGCCTCCCAAACAAGTACCTACAACACTAAGCCTAGGCGATAAT
TTTAATCAATCGGCTATTAAAAAATCTAATATTACCAAAACAAGTACCAATACTGTTGCA
GACATAAAGCAATCTCACGAAGAAGGGAATTATATTCCTGTTTCTACAGTGTCATATATA
ACGGAAAGTTCTACTAAAAGAATTATATTGAATAATAAGTATCCCATGTCTTCTAATGAA
AATTCTTTACAAATTAAAAAAACTACAGTCACCAGCACAAACAAACCTATTGTAAACAGA
GACAAGGAATTTGAAAAACAAAATGCAACCACTATGACCACTCAATCTATTTCTCCTTCA
ACTTCTATATCTTCTATAGAATTTTCTTCAACGTTGAAACAAGAATCGCCAAGCAATTAT
GAACAAAAAATTCCGACACCTTTTATTGATACTCAAAATGATAATTCAGACTCTACCATA
CCTTTGTTTGATGTTGCACAAAGCTTAAGTCAAATAGCTTCAGATTTAAGTGGAAATTTT
TCCCCCGTACCAACATCCACAAATTTATTAGAAACAACTAAAATTAACAATATAGATATC
GAGAGTAAGGAAAATTTAGAAATAGATATACCAACGGAATCAAGCATCGAACTTGACGTC
AACGCAAATAAAACTGAAGAAGAAGATAAGTTTGTAAAAATTTCTACTTTTGAACCTGCT
GGAAATGGCGTGAATGTTAAAGATGAAGTTCTGAATTCATCCCATAACTTAAACGATTCA
TTAGAGCTTAAACCATCGATGACGTCATCTCCTCCATTGACTAACATGGACACTCTTTTA
TCAGAATCGATGGATAATCTTCTATCTCAAGTCGCTAACGAAGATCCCGATTCTACGACT
GTTGTGTCGTCTGAAAATAACAATGAAAGTAATGATATAATTACTACAACATCTCTTGAT
TTGACTACAATTAACACATTTAATCTAGAAACGACGACAGAAAATTATCAGATAGAGACA
ACAACGACTTTGCCAATAACCAGCAATGATATTATAATGGAGAAGAATAATGATAATGAC
AAAATAAATAAAAAAGATACTATTCCAGATCCATTTTTACTATTAAATAAAACGTTACAA
ACTAAGACAAACAGTGTTCTTGCATCTGAATCTGTAACTACTGACACTATATCTACTCCC
AAAGATAATGTTCAAGTGACCACTAGAGCTCCCATTAATCATTTACAACAAGAAACTTTA
ACAATGACCAATGATAACCAACAAACTATTAGTACAATTAAAATTACCAGTTCTGTAAAC
GATATTAACACAACTAACGTACCACATACGATGCAAGAATCAAATAAAAGCAGCAATATA
AACAAACAACAAAAAATATCCGAGGGTTTACCTAAAATCGACGATTTTAAGAAAAAGATT
CAAAAGGTCAATATTGACGACAAAGAGTTTTCTAATGAGAGAAACAGTTCCTGGAAACTG
GTACCTACAGTAGTTAAATTAAGTGAACTTGCAAAGGACAAACAAAATGTCGAGGGATTT
TACACTCCCGATAATGACAAAGATATAATTTTGGAATTTCCAAAGGAAAATCAAGGTTTA
GAAGTGACCACGAAAGATTTACGTGACGACATAATGGAATTCACGGAGCTTTGCAATGAA
TTGGCTTTTAAATACTGGAATATCATGACGGAAAAGATAGATAAGAAACGTAGTATGGTA
TTCTCACCATATTCTATAACTTCTATGGCGGCCATGATGTTCATGGGAGCCAAAGGTTCT
ACATCAGGGGAAATGAATGAAGTGCTGAGACTTGATGACATGGTTACATTCAATCCTCAC
TTCACATTGAAGAACATCTCCGATTCCATAGACACAACACCCGCTTCGGGCGTCGCTGTA
TCAGTGTTCATAAGAGAACTGTACAGTGAAAGAAATAAGGGTAAATTTTTAACCTTCTAT
AAAGAGAGAGCTCAACATTTCTACAACGGACATGTGGAGGAAGTAAACTTTAAATTGATT
AGCGATATAATACGACGAAGAACTAATTTACTCGTGAAAAGATATTCCTGGGGTAAAATT
TCAGAATATATGAAAAGTAACAGCATTATTATGAACCCACCTCTAGCGGCTTTTGCAGCC
AACATATTTTACACCGATTGCAACGGATCGTCCGTTGAAGGAAGGGATGGTGAGATGTAT
TTTGTTGTATCACCTAGTGTGAGACAGCGTCGCCTGGTGCCTGTACCAGCCGTGGTCTAC
CGTGGTAACTTCCTCGCTGGTTACGACCCCGTCCTCGATGCGACAGCAGCAGCTTTAGGT
AACACGAAATCTATAATCAGCACTCTCTTCCTCATGCCGGGCCAGCAGGGGAACGTCGTT
CAAGCTGATGATTTGGAGAATCTTGAGAAGAGATTATTGAAATCTGATCCTATCACACCA
GCGTGGAACAGATTATTGCGTACCCTACTTCCTAGGTTTGGCTTGGAATTGCAAATACCT
AGATTCATGCACAAATCCGTGTTCAACGTTTCATCGACATTGCAACGCATGGGATTAAAG
GATTTGTTTAGTGAGGAACACGCTGACCTGGGTGGTTTGAACGGTCCGTCGAAGGACCTT
TATCTCACTGATATGATTCAACAAACCTCATTCGCTACCTGCGGGGAAGGTCTCATTGGT
GAGCAGCATCATATTGAGGAATATCCTGATACGATCGAAGTGAGATCGAAACGTAGGACG
TCTAGATGGAACACAGGCTGGGCTGAGCCTAGAGATTACCAACGAGCTTTCCACGATCCC
CATGACGCTGGTGAAGCGATGTACTTACCCCTGCATCTACGACCGAGGCAGGCCAGACTC
CCCACCAGGAGTTCCCAACCAGCTAGATTAAAATTCGATCGACCTTTCCTATACTTCGTC
AGACATAACCCATCTGGAATGATTCTTTATGTGGGCCGTTACAATCCCCGGCTCTTACCT
TAA

Protein sequence:

MRVIIYVLVAAVCVSAQSNQIRRTKLPYVADAVGNSLPPPSSGPATVGSPVNLLTPDKYE
FYTFDESGELVKRLMTLEEIQAIVAAGEETDGLVTFANDNLPTLTFNFSQPSQTKVHNVV
ANVQNVLKAQMEAHKNKPYIQPTLDTPDVSDSWSLILPSIFGNTGMDIVPDKLSDSFITP
ETETMDINSFNKEGVNSQSKESNDIPIHPNSETNKNTGIFESTTEIPSTTNKSLEPTSSP
ITTTTTTTTTTQKPISTTRQEILTTTQKLSSTTVRPTTTRKIDLEAKPMYKPKENSTDST
KISNSTEEYKIMSTKQPFTAISSEGTPPKQVPTTLSLGDNFNQSAIKKSNITKTSTNTVA
DIKQSHEEGNYIPVSTVSYITESSTKRIILNNKYPMSSNENSLQIKKTTVTSTNKPIVNR
DKEFEKQNATTMTTQSISPSTSISSIEFSSTLKQESPSNYEQKIPTPFIDTQNDNSDSTI
PLFDVAQSLSQIASDLSGNFSPVPTSTNLLETTKINNIDIESKENLEIDIPTESSIELDV
NANKTEEEDKFVKISTFEPAGNGVNVKDEVLNSSHNLNDSLELKPSMTSSPPLTNMDTLL
SESMDNLLSQVANEDPDSTTVVSSENNNESNDIITTTSLDLTTINTFNLETTTENYQIET
TTTLPITSNDIIMEKNNDNDKINKKDTIPDPFLLLNKTLQTKTNSVLASESVTTDTISTP
KDNVQVTTRAPINHLQQETLTMTNDNQQTISTIKITSSVNDINTTNVPHTMQESNKSSNI
NKQQKISEGLPKIDDFKKKIQKVNIDDKEFSNERNSSWKLVPTVVKLSELAKDKQNVEGF
YTPDNDKDIILEFPKENQGLEVTTKDLRDDIMEFTELCNELAFKYWNIMTEKIDKKRSMV
FSPYSITSMAAMMFMGAKGSTSGEMNEVLRLDDMVTFNPHFTLKNISDSIDTTPASGVAV
SVFIRELYSERNKGKFLTFYKERAQHFYNGHVEEVNFKLISDIIRRRTNLLVKRYSWGKI
SEYMKSNSIIMNPPLAAFAANIFYTDCNGSSVEGRDGEMYFVVSPSVRQRRLVPVPAVVY
RGNFLAGYDPVLDATAAALGNTKSIISTLFLMPGQQGNVVQADDLENLEKRLLKSDPITP
AWNRLLRTLLPRFGLELQIPRFMHKSVFNVSSTLQRMGLKDLFSEEHADLGGLNGPSKDL
YLTDMIQQTSFATCGEGLIGEQHHIEEYPDTIEVRSKRRTSRWNTGWAEPRDYQRAFHDP
HDAGEAMYLPLHLRPRQARLPTRSSQPARLKFDRPFLYFVRHNPSGMILYVGRYNPRLLP