MonarchBase - Protein-coding gene

DPGLEAN06978 in OGS1.0

New model in OGS2.0	DPOGS214960
Genomic Position	scaffold1077:- 22482-55552
	See gene structure
CDS Length	3141
Paired RNAseq reads	1345
Single RNAseq reads	3208
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA013969 (2e-06)
Best Drosophila hit	CG31619, isoform A (4e-161)
Best Human hit	ADAMTS-like protein 1 isoform 4 precursor (1e-70)
Best NR hit (blastp)	hypothetical protein TcasGA2_TC009960 [Tribolium castaneum] (0.0)
Best NR hit (blastx)	PREDICTED: similar to papilin [Tribolium castaneum] (0.0)
GeneOntology terms	GO:0004222 metalloendopeptidase activity GO:0006508 proteolysis GO:0008270 zinc ion binding GO:0005578 proteinaceous extracellular matrix
InterPro families	IPR000884 Thrombospondin, type 1 repeat IPR003599 Immunoglobulin subtype IPR003598 Immunoglobulin subtype 2 IPR013783 Immunoglobulin-like fold IPR013098 Immunoglobulin I-set IPR010909 PLAC IPR007110 Immunoglobulin-like
Orthology group	MCL11585

Nucleotide sequence:

ATGTGTTATGATAAACGTGTTGGCTGTGACTTGCGAGTCGGTTCTACTCGTCGAGTCGAT
GAATGCGGTGTTTGTGGTGGGGACGGGTCATCATGTTCGAGACCAAGATACCACTGGCTT
TCAACTCCAGGATCCTTGTGCTCCGCTACATGTGGTGGTGGTTATAAAATGTCTCTGGCC
GTGTGTCGTGACCGACTAACTGGGTTGGATGCACCCGAGGAACTCTGCGATGGCTCCAGA
AAACCAGCATCAGCTGTGGTGCGATGTAATACACATCCCTGTCCATTCAAGTGGTATGTG
GGCGAGTGGTCATCTTGCAGTGTGACGTGTGGAGGAGGTGTACGGTCACGGCGAGTGTTG
TGCGCGAGATCTGCCAATGTAACGAGGACAGACACTTACGATCCTGAGACAAGTTCTGAA
CCTGGTTGCTTAACACCTGCACCTCGTTCGACGCAGCCTTGTAATGATCACAGCTGTCCC
ACGTGGCTTGCAGGCGCCTGGTCAGGGTGTTCAGTATCCTGCGGTGAAGGTGTACAAGTT
CGTGGGGTCGAATGTACCCCAGCTGGTGGCGGATGTGATCCAGCGACAAGACCAGAAATC
TCCAGATCCTGCTCAACAGGCATAAACTGCCCGATATACAGAGAGCCTGAGGAGCCTGAG
GACGACATAGAAGCACTACTCCCAGGTGTAGTTTATCACACCCAGCCCTTAATACAACAA
TATCCAGCTGCCGAAAGACTTGTAGGAGAACCAGACGTACCCGTTGAAGCTACTTACATA
AAAGATGACGAATGGACACCGTGTAGCGTAACATGTGGCGAAGGATGGCGGAAAAAGGAG
GTGCATTGCAAGATATTCTTAGAATTCAGTAGGACCATAGCAAAGTTACCTGATAGCAAA
TGCATGGGCCCAAAACCAACGGAAGAAACCGAGAGGTGTGTCATGGAACCTTGCTCTATG
GCATACGGAACTTCGTTTGGAGATTCAAGTGCACCTGCTTATAACGGTGGAGACAGGTCG
TTGATATTCGGTACATCGAGTAACATAAGAGTAGCACCAGGTTCACCAGGGAAGTCCTAT
TCTTGGAAGGAAAAGGGTTATACTAGCTGCAGTGCATCTTGTTTGAGCGGTGTACAGGAG
CTTATAATACAATGCGTCCGAGACGAAGACGGCAAGAACGCGTCTCCATACATGTGCGAT
CCATTGACAAAGCCGGAGAATAGGGTGCGTACCTGCAACGACCACCCGTGTCCGCCAAGG
TGGAACTACACGGAATTTTCTCAATGCACCAAGTCGTGCGGAATCGGCATTCAAACTCGC
GAAGTCACCTGTATCCATGAGGTAACGAGAGGTGGTACAAATACCGTGGTGGTACCAAAC
AGTATGTGTCCTCAACCTCCACCACCTGACCGTCAGTACTGTAACGTACTTGACTGTCCT
GTCAGGTGGCATGCCGGCGACTGGTCCAAATGCTCCAAGACTTGTGGAGGAGGAGTCAAG
CAGAGAGAAGTGATATGCAAACAAATAATGGCTCAGTCGCACGTAGTCGAGCGACCGTCG
TCTCAATGCAGTTCACCGAGACCTGCGACAACAAAGTCGTGCAACAGTCGCCCGTGTCTG
TTGGATACCTCGTCGCCGGAAATATCATTGGCAAACTCCTCATACATACAGCATGATCCG
AAAAAGAAAAAGGTGACAGTAAAAGTGGGGGGTTCAGCGACGATATTTTACGGGACACAG
GTGAAGATAAAATGTCCGGTCAAAGGTTACAACAGAACCAAAATACAGTGGGCCAAAGAT
CATCAGATTATAACCAAGTCGAAGAAATACAAGATATCTAAAAAGGGAGCTCTCCGTATA
ACTTCTCTTTCCCTCCGCGACCATGGAGTCTATACTTGCGTGGCGGGAAGGTCAAGCGCA
AACCTGACCTTACTTGTGAAACCTCGCCCGGGTGAATTCCCATCCAGCGAGGAAATTGAA
AGACATAAGGCCTTGGACGAACCTTCCTCACCACTTTCAGACAGAGCGGATGGTAGATAT
CGAGCGATGGTAGGTGGTCGATCTGACGATCAGTCCCATGAACAGCGGCCACCAGACCAG
AAAAAGAATTACAAGAGTCGACAGAAAGGCAAAATTGACAAAGTACGTGACGCGTTATAT
GGAAGTGCAACAACGAAAGCCTCACCAAGTTACTCTCAAGCCAGAGATATTTACGATGAA
AATGAGACAACCGGAAATTCGAGGGGTCAAAGGATGGTTGATCCCATCATCATGTACCAG
AATTACGGATCACCAACACAGGCGGAGGTCGTTAACCTTCAGGACAAACAAATCGTTTTC
CCTTACGACGATGACTCGGACATCATAATAGTTAACGAAGATTACAACAAGAAAACATTT
GAAAGTACTGACAAATCTGATATGATTGAAACGACTACAACATTAGAACCGCAAAAGATA
ACCGCAACCGATGTACATGAATATATGTGGACCACAACATTGTGGTCGACTTGTTCCGCC
CCGTGTGGACAAAGTGGACATCAGATAAGAGGTGCTATTTGTCAACATAAAGTCCAGAAC
ACTACAACATCGGTAGTGACAGATGAGTGTATATCACGTGGACTAACTGCGCCTTCAGTG
ATGCGTAATTGTGAGACTGATGGATGCGCAACTTGGAAGGCTGGCGACTGGTCTCCACCG
AGATGCCTTCTCAGTGGAACAGCTATAATCCGTCGTCGAGTAGAATGTGTGAGCGATAAC
GGTACGCTAGTCTCAGACTCGGCGTGTGTATACAGCGAGCGACCCGAGCATTTGCGTCGC
GTACAACCTTGTAGAGCAGTCTGGTCTGTGGGTCCCTGGAGCAAGTGCAAAGGCCCTTGC
GGTGAGAGCAAACAGCACCGCGTGCTGCGCTGCGTGTGGCGAGCACCCTCCATACAAGGA
AATACACGCACGAGAAGAGAAAGACCTGCCGCCGCCTGTGTACAAGAACGGCCTCCAGTT
GCAAGGGATTGTAAGCAGAGTAACTGTGTCAGGGATGCTGTTTGCAGAGACACCTCACGT
TTCTGTGAGAACGTCCGCGCCATGAATATGTGCGCGCTCCAGCGCTACCAGAGGCAGTGC
TGCAAGACCTGCGAGGATTAA

Protein sequence:

MCYDKRVGCDLRVGSTRRVDECGVCGGDGSSCSRPRYHWLSTPGSLCSATCGGGYKMSLA
VCRDRLTGLDAPEELCDGSRKPASAVVRCNTHPCPFKWYVGEWSSCSVTCGGGVRSRRVL
CARSANVTRTDTYDPETSSEPGCLTPAPRSTQPCNDHSCPTWLAGAWSGCSVSCGEGVQV
RGVECTPAGGGCDPATRPEISRSCSTGINCPIYREPEEPEDDIEALLPGVVYHTQPLIQQ
YPAAERLVGEPDVPVEATYIKDDEWTPCSVTCGEGWRKKEVHCKIFLEFSRTIAKLPDSK
CMGPKPTEETERCVMEPCSMAYGTSFGDSSAPAYNGGDRSLIFGTSSNIRVAPGSPGKSY
SWKEKGYTSCSASCLSGVQELIIQCVRDEDGKNASPYMCDPLTKPENRVRTCNDHPCPPR
WNYTEFSQCTKSCGIGIQTREVTCIHEVTRGGTNTVVVPNSMCPQPPPPDRQYCNVLDCP
VRWHAGDWSKCSKTCGGGVKQREVICKQIMAQSHVVERPSSQCSSPRPATTKSCNSRPCL
LDTSSPEISLANSSYIQHDPKKKKVTVKVGGSATIFYGTQVKIKCPVKGYNRTKIQWAKD
HQIITKSKKYKISKKGALRITSLSLRDHGVYTCVAGRSSANLTLLVKPRPGEFPSSEEIE
RHKALDEPSSPLSDRADGRYRAMVGGRSDDQSHEQRPPDQKKNYKSRQKGKIDKVRDALY
GSATTKASPSYSQARDIYDENETTGNSRGQRMVDPIIMYQNYGSPTQAEVVNLQDKQIVF
PYDDDSDIIIVNEDYNKKTFESTDKSDMIETTTTLEPQKITATDVHEYMWTTTLWSTCSA
PCGQSGHQIRGAICQHKVQNTTTSVVTDECISRGLTAPSVMRNCETDGCATWKAGDWSPP
RCLLSGTAIIRRRVECVSDNGTLVSDSACVYSERPEHLRRVQPCRAVWSVGPWSKCKGPC
GESKQHRVLRCVWRAPSIQGNTRTRRERPAAACVQERPPVARDCKQSNCVRDAVCRDTSR
FCENVRAMNMCALQRYQRQCCKTCED