MonarchBase - Protein-coding gene

DPGLEAN18657 in OGS1.0

New model in OGS2.0	DPOGS203991
Genomic Position	scaffold2:+ 1160631-1163864
	See gene structure
CDS Length	3234
Paired RNAseq reads	296
Single RNAseq reads	711
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA002136 (0.0)
Best Drosophila hit	Semaphorin-5c, isoform A (3e-12)
Best Human hit	hemicentin-1 precursor (2e-23)
Best NR hit (blastp)	hypothetical protein BRAFLDRAFT_85664 [Branchiostoma floridae] (5e-45)
Best NR hit (blastx)	hypothetical protein BRAFLDRAFT_219194 [Branchiostoma floridae] (2e-37)
GeneOntology terms	GO:0003674 molecular_function GO:0008150 biological_process GO:0005576 extracellular region GO:0005604 basement membrane GO:0005938 cell cortex GO:0030054 cell junction
InterPro families	IPR000884 Thrombospondin, type 1 repeat IPR001791 Laminin G domain IPR008985 Concanavalin A-like lectin/glucanase IPR013320 Concanavalin A-like lectin/glucanase, subgroup
Orthology group	MCL39642

Nucleotide sequence:

ATGCTAACGCAACAGCAGAATAAAAGTGCTATAATTTTGTTAATTTTATTTATTTTATCT
GAAACCAAAAAACCCTTTACTAAAAGACTTGAGGCTTCCTGGCGTTTGGAATGTGATTTG
GGTATTATAACAGATTCCGACTGTCCAATTGATGGTGGATGGTCCCCTTGGGCACCATGG
TCTAAATGTTATGGCGCCTGTGATAGCGTTGGTCACCGTAAAAGATTAAGAACATGCAAC
AATCCAACACCTTCAAAAGATGGTATGCCTTGTAGAGGTTTTGATGAACAGTTGGAATCT
TGTTACTTAACGAATTGTTCTGTCAAGGATTTCCGCAATATCGTTGAGGGGGACCCTGCT
AGAGAAGAAGCATTACATCAACTAGAAGCGGTTCCTTTATTAATGGAAAGATGTCTGCAG
ATGGAATGTCCTTTTGAAGCTGTTGATGCTACATTAGCAATTGAAAATACTTGGCAAATA
AATTCAGAAACCGTGTGGAATGCACTTCAATGCGTAAAGCATGACATTGGATGCCCTATT
GCGGGTGACTGGGGCGCTTGGGGTTCGTGGTCGTCTTGTGGCGCTCGCTGCGGTAAAGGT
ACTCGTTGGAGAATGAGACGCTGTGATACACCGCCCCCCTCTCTATCGCATTTGATTTGT
CCAGGAACGCCACTGCAATACGAACAATGTGAAGGAGATCAATGTGCGATCGACGGTCAA
TACGTTGAGCAAAGTGGCAGTTGGAGCGAATGGGGTGCCTGGACTGAAAGTTCAGAGAAA
TGTGGCTATGGAGTTCGTCGTAGGAAAAGGGCTTGTGTCGAGAAGCAACTAGCACTTTCT
GCTATAAATTGGGGAACACATTGTAGAGGACAGTATGACGAATTAGATGTTTACTATAAC
ACAGAATGCGTTTTGGATGGAGGCTGGTCTGGTTGGGGACCATGGGGGCCGTGTTCTCAA
ACATGTGGCGCTGGCAGACGTTCAAGAACTAGATCCTGTACAAGACCAATACCTTCGGGC
AATGGTACCGATTGTGTGGGACCAAAATCTGACGTTGGGACATGTCATTTAGCGCCTTGT
GAAGTTTTTACACACACTATTTCTTTACTTAATGGTGACTCTTATATGCACTATAATTTC
CCACGCAAAAGATCAACCTTCTTTCATTTTTATATCCGTTTTATGGCACTTTCTCCCCAC
GGAATCATTGTTCGACGTGGAAGTGCTCAAAATCCAAGTGTTCGATTAAGTTTGCAGAAG
TGGCATGTTTGTCTAGACGCTAGCGGTTTGTCCAAATCTTGCAGTTTACCTCGTATGTGT
TCAACAACAGCAATCGAGCCTGCAACATGGCATTCAATCTTAATGTCTGTTACGAGCCAA
GTAGCTATCATAAGATTAAATGACGCCCAAATATCAATGCAGAACTGGTTTCCTTGCAAT
CCTGAATTAGAAAATGACAAAATGAATATTTTTATTGGAGAAAAGTTTCATGGCGAAATT
CATGAAATTATGCTTAATTTTATTCCATTACATACCATTATTGAACGGGAACAGCGAATG
AGTCAATCAGATTTCTATCCTATTTCAACGTCTAACATGGCCTATGAAAAAGCTAGCCCT
GAAGAAGCTTATTTACTAATACAAAACGATCAATATTTACGTTTGCCTTGTTTTAAGGAA
CAAGATGAATGGCAAATTGAATTGACAATTAAATCTGAAAAAGAAAGTGGTACAATAATT
TTACTTCCAAATAACATAAACGATAACTGGTTGTATGTAATTTTACAAAATATGAGATTA
AAAATAAAATTTGCTCGAAAGGAATTCAAGTCGGAAGCAATTAGTTCAACTGAATTTTTA
CCTGATCAATGGATGGATATAGTTATAAGTAAAAAAAGAGAAACCAATACTATTGTAGTA
TCAATAAACGCAGGAGAACGTCTTCACGTACTTTTGATAGAAGAAACAAAAAAAATTGGA
AAATCACGTATCAATAACAAACATGTACTTCAGGGCCAAAATTATAATCACAGTTTCATA
AACAATAACAAGATTGTAATATGCAATGATGAATTTTTTATTGGCGGCGTACCGCTTGAT
ATAAAAAATTCTATATCAGAAGATTTTACACCTTTTACGGGAATAGCAGCCTCAGTAAGG
TTAAATAATAATTTGTTAGATTTACACGATTTCAGTATGGAGCGGACCAAAAACGACCTA
ATTCAACTCTCTTCAAGAACTGCTAGTATTTCAGGATCATATCATGAAACCGAATGGGGT
GAATCAAACCAGTTCAATTTAACATGTCTACATGCCCGAACAGCAAGTTTACCACATTCA
GCCTATTGGCTTTATTGGGATACCCAAATAAAAATCATAAAAAGTAAAAATGCACGTTCC
GTAGATGATGGAAGAGTTTTACGTTTGTTGGTAACAGCTGAAAAAGACCTTAGGGGATAT
TATACTTGTAGAGCACATAGTAATAGACGCACAAGGAACATCGTTACGTTCGGCGTTTTA
GGAAAAATACAATATAAAAGTTTGAGCCCCGACACGTTAACTGTGATTGCAATTTGCACT
ACACTGTCTTTAGTAATATTTACTTTGGCCTGGCTTATAATAGAAGGATATCACGACCTT
CGTAATGGTTATGGATTTTTTAGAGACGCCCATCTTTCCCCCGAAGAGGAGGCGGAAGTG
GTTTGTCAATATTTCGAACAAAACATGCACTTACTTGGATCGCAAAGTGAGGTTAATCTA
GCTAAGACGAAAGCAAGGCGCAGAGGTAAGCGGTTGGCTAGTAAAGCAAGTTTTGGAGTA
CAGGAACCAGATAACATGTTAGAAGGAAATAATGCACTAGAAGAATTCACTTCTAGCGAT
CCCGAGGGTTTACCTACTTTACCTGAGATAAAAAATTCTGGCATAGAATTTTTTCATAAA
ATTTATAGATATGAACCTTCCTACGTTAGTTCTCCCCGCCATGGCTCCCTTACCACCCGA
ACAAAACTATCTTCAACCTCGTCTTTAGACTCACTTGCAAAAGTGTTAGGTTCCCCCTCC
TATGTACGTAAGATCGCTAATTTATCTAAAGATAATAAAAGGATTAAAAACTGCCGCTTT
AAGAAAGCCAAAAATGAATCAAATCTACTGACCATAAAGTCTTCAACGTTTCTCAAAAAA
TCACCGGCACATAAGGTGTTGGAAAAATTTCAGGAATTAAAGAGCGATGATTAA

Protein sequence:

MLTQQQNKSAIILLILFILSETKKPFTKRLEASWRLECDLGIITDSDCPIDGGWSPWAPW
SKCYGACDSVGHRKRLRTCNNPTPSKDGMPCRGFDEQLESCYLTNCSVKDFRNIVEGDPA
REEALHQLEAVPLLMERCLQMECPFEAVDATLAIENTWQINSETVWNALQCVKHDIGCPI
AGDWGAWGSWSSCGARCGKGTRWRMRRCDTPPPSLSHLICPGTPLQYEQCEGDQCAIDGQ
YVEQSGSWSEWGAWTESSEKCGYGVRRRKRACVEKQLALSAINWGTHCRGQYDELDVYYN
TECVLDGGWSGWGPWGPCSQTCGAGRRSRTRSCTRPIPSGNGTDCVGPKSDVGTCHLAPC
EVFTHTISLLNGDSYMHYNFPRKRSTFFHFYIRFMALSPHGIIVRRGSAQNPSVRLSLQK
WHVCLDASGLSKSCSLPRMCSTTAIEPATWHSILMSVTSQVAIIRLNDAQISMQNWFPCN
PELENDKMNIFIGEKFHGEIHEIMLNFIPLHTIIEREQRMSQSDFYPISTSNMAYEKASP
EEAYLLIQNDQYLRLPCFKEQDEWQIELTIKSEKESGTIILLPNNINDNWLYVILQNMRL
KIKFARKEFKSEAISSTEFLPDQWMDIVISKKRETNTIVVSINAGERLHVLLIEETKKIG
KSRINNKHVLQGQNYNHSFINNNKIVICNDEFFIGGVPLDIKNSISEDFTPFTGIAASVR
LNNNLLDLHDFSMERTKNDLIQLSSRTASISGSYHETEWGESNQFNLTCLHARTASLPHS
AYWLYWDTQIKIIKSKNARSVDDGRVLRLLVTAEKDLRGYYTCRAHSNRRTRNIVTFGVL
GKIQYKSLSPDTLTVIAICTTLSLVIFTLAWLIIEGYHDLRNGYGFFRDAHLSPEEEAEV
VCQYFEQNMHLLGSQSEVNLAKTKARRRGKRLASKASFGVQEPDNMLEGNNALEEFTSSD
PEGLPTLPEIKNSGIEFFHKIYRYEPSYVSSPRHGSLTTRTKLSSTSSLDSLAKVLGSPS
YVRKIANLSKDNKRIKNCRFKKAKNESNLLTIKSSTFLKKSPAHKVLEKFQELKSDD