MonarchBase - Protein-coding gene

DPGLEAN04971 in OGS1.0

New model in OGS2.0	DPOGS213101
Genomic Position	scaffold1526:- 34590-38925
	See gene structure
CDS Length	2424
Paired RNAseq reads	228
Single RNAseq reads	640
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA007861 (7e-09)
Best Drosophila hit	ND
Best Human hit	collagen alpha-1(V) chain preproprotein (7e-22)
Best NR hit (blastp)	PREDICTED: similar to Collagen alpha-1(XI) chain precursor isoform 1 [Apis mellifera] (1e-131)
Best NR hit (blastx)	PREDICTED: similar to Collagen alpha-1(XI) chain precursor isoform 1 [Apis mellifera] (4e-45)
GeneOntology terms	GO:0005581 collagen GO:0006029 proteoglycan metabolic process GO:0031012 extracellular matrix GO:0002063 chondrocyte development GO:0003007 heart morphogenesis GO:0048704 embryonic skeletal system morphogenesis GO:0055010 ventricular cardiac muscle tissue morphogenesis GO:0042472 inner ear morphogenesis GO:0005201 extracellular matrix structural constituent GO:0030199 collagen fibril organization GO:0001502 cartilage condensation
InterPro families	IPR000885 Fibrillar collagen, C-terminal IPR008160 Collagen triple helix repeat
Orthology group	MCL10248

Nucleotide sequence:

ATGAATATCCCACTTTGCGGGACTCCGGGACAAGCTGGACCTCCAGGCTTACCTGGACCC
CCTGGATCTAACGGTGAACCAGGTCCACCTGGTCTACAAGGACCGTCTGGTATGTCAGGA
GCACCTGGTGAGGTGGGTCCACCGGGAGATTCAGGAAAAGAAGGACACCCGGGACCACCA
GGACCGGAGGGAAAACCAGGCCCTCTGGGACCTCCAGGATCACCTGGCGCAAACGGAGAG
CCAGGTTTACCTGGGGCCCCCGGAATTCCTGGAAGTAAAGGTGACATGGGTCCACCAGGA
CAAGCAGGCGTAAGAGGTGAGAAAGGAGAACAAGGAGAACCTGGACGTGAAGGTTTACAA
GGACTTATTGGCCGAGATGGGCCAAGAGGATCTCCTGGACCAGGAGGTCAAAAAGGAGAA
GTTGGCGAACCTGGTCCTATAGGTCCTGTTGGCCGTGATGGTCTACCAGGTCCACGGGGC
CTCTCTGGGGTCCCTGGACCTATTGGACCTCCAGGAGAAGATGGTGACAAAGGTGAATCC
GGTCCACCTGGAGAAAAAGGTTTCAAAGGCGCAATGGGGCAACCCGGCCCATCGGGTGCT
CCAGGAATTCAAGGTCTTAGAGGAGAACCTGGACCAGTGGGTTTACCTGGTGATAAAGGA
CCCCCGGGCGATATTGGTCCACCTGGACCGGCGGGAACTGATGGCACACGTGGGCCTCCG
GGACTTATCGGTAAAATTGGGCCCGAAGGTCCAAAAGGTGATCAGGGTTCAAAAGGAGAT
AGTGGAGAAGTCGGACCTATAGGTCCCCCTGGACCCGCTGGTCCTACTGGATCTGTTGGA
AGGAGGGGTCCAAAAGGAAATCAAGGTGAACAAGGTCCTAGAGGTCCGGAAGGAGAAAGA
GGGGAAATAGGAAGCCCGGGATCGACAGGTCCGCAAGGACCACAAGGATCTGAAGGAAAA
GTGGGACCACGAGGATACGCAGGACCAAAAGGTGATGATGGTTTACCGGGACCTCCAGGT
GAAGCAGGTGCTAAAGGACTTCCCGGTCCCGAAGGCGCCAAAGGTGACACTGGACCGTCT
GGCTTCCCTGGAGATAGGGGAGAACCTGGTCCACAAGGAGTCAAGGGTGAACCTGGTACT
GATGGTCCAGAAGGAAGCCCGGGACCCCCAGGTTCACCTGGACCAATAGGACCTATTGGA
AAACCAGGTGAAACTGGTATTCCAGGAAGTCCTGGCACCGAGGGGCAACCTGGTATACAA
GGAAATCCTGGAAATCCTGGTGAAAAGGGTAATATGGGTCCTAGGGGACTTCAAGGGGAA
CAAGGTCCACCAGGAGCAATTGGTCCTGTTGGACCAGAAGGACCCCCTGGTTTAAGGGGA
CTGGCTGGACCAACTGGAGATGTTGGAGCACCTGGTGTTATGGGACCAATGGGTGTACCA
GGACCTAGCGGATCCCCCGGCCAACAAGGAATAAAAGGAGAAAAGGGGAATAGGGGAGCG
AAAGGTCATACTGGTGATACGGGAAATATTGGAATTAAAGGAGACCAAGGCGAAATTGGA
AAACAGGGACCAACAGGTCCAATAGGTCCTATGGGGCCAAAAGGAGACACAGGTCCAATT
GGGCCTCCCGGATCCAAAGGAGATGTAGGACCGGCTGGGCTGGCTGGACTTGAGGGACCT
CTGGGCCCAAAAGGCACGGCAGGACCTGAAGGTCGCCCCGGTCTACCCGGCCCTCCCGGT
GCTCCAGGACCTCCAGGTCCTCCCGCGCCAATCCCTCAGCTACCTTCTGATCTGTTCATG
TCCAGTAGACGAAGGCGAAGTATTGAAACTGAATCTACGGAAACCGCTACTGAAGATAGT
TATGAAGAAGAGGAAATCGAATGGACTCGTGAGATAATGGCTGGCGTATTAGCAGCTCGA
GGAACGCTGGATGCGGCCCGCCGACCGCGTGGTACTCGCTCCAACCCAGCGCTGTCATGC
AGGGACTTACGAACATCTCATGCTAATTTAACTGATGGTTTCTACTGGATAGATGCTCGT
GGGGGTTCTGGACGTCCTATTAAAGTGTTTTGCGATGGCCAAAGCACCTGTTTGTACCCG
GAAAATGTCGATGCTGCAGCTGTGTATTTCGATATATCAGGACAGAAGTTCTCACAGCTT
GATGGAGGATATCGGATAAATTACGACAGCGAAGGTTCCGGCTTCATACAAATGCGGTTC
TTACGATTGCTATCAACTGGTGCAAGACAAAATTTCACTTACACGTGTGTCAAAACAGTT
GCACCACAAAGATCCGATATTCCCGTGGATCTCATAAAAAACAAAAAAATTAAGTTGTTG
GGTCAAAACAATTTTGAGTTTAAGGAGCCCCAGATAATAAAGGATGATTGCAAGGTAAAA
TTTTCGACGCCATTACTAAAATAG

Protein sequence:

MNIPLCGTPGQAGPPGLPGPPGSNGEPGPPGLQGPSGMSGAPGEVGPPGDSGKEGHPGPP
GPEGKPGPLGPPGSPGANGEPGLPGAPGIPGSKGDMGPPGQAGVRGEKGEQGEPGREGLQ
GLIGRDGPRGSPGPGGQKGEVGEPGPIGPVGRDGLPGPRGLSGVPGPIGPPGEDGDKGES
GPPGEKGFKGAMGQPGPSGAPGIQGLRGEPGPVGLPGDKGPPGDIGPPGPAGTDGTRGPP
GLIGKIGPEGPKGDQGSKGDSGEVGPIGPPGPAGPTGSVGRRGPKGNQGEQGPRGPEGER
GEIGSPGSTGPQGPQGSEGKVGPRGYAGPKGDDGLPGPPGEAGAKGLPGPEGAKGDTGPS
GFPGDRGEPGPQGVKGEPGTDGPEGSPGPPGSPGPIGPIGKPGETGIPGSPGTEGQPGIQ
GNPGNPGEKGNMGPRGLQGEQGPPGAIGPVGPEGPPGLRGLAGPTGDVGAPGVMGPMGVP
GPSGSPGQQGIKGEKGNRGAKGHTGDTGNIGIKGDQGEIGKQGPTGPIGPMGPKGDTGPI
GPPGSKGDVGPAGLAGLEGPLGPKGTAGPEGRPGLPGPPGAPGPPGPPAPIPQLPSDLFM
SSRRRRSIETESTETATEDSYEEEEIEWTREIMAGVLAARGTLDAARRPRGTRSNPALSC
RDLRTSHANLTDGFYWIDARGGSGRPIKVFCDGQSTCLYPENVDAAAVYFDISGQKFSQL
DGGYRINYDSEGSGFIQMRFLRLLSTGARQNFTYTCVKTVAPQRSDIPVDLIKNKKIKLL
GQNNFEFKEPQIIKDDCKVKFSTPLLK