MonarchBase - Protein-coding gene

DPGLEAN05447 in OGS1.0

New model in OGS2.0	DPOGS211850
Genomic Position	scaffold71:+ 94390-111587
	See gene structure
CDS Length	1290
Paired RNAseq reads	60
Single RNAseq reads	143
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA001224 (1e-125)
Best Drosophila hit	sarcoglycan delta, isoform C (7e-59)
Best Human hit	zeta-sarcoglycan (1e-38)
Best NR hit (blastp)	conserved hypothetical protein [Culex quinquefasciatus] (1e-82)
Best NR hit (blastx)	conserved hypothetical protein [Culex quinquefasciatus] (1e-65)
GeneOntology terms	GO:0008307 structural constituent of muscle GO:0016012 sarcoglycan complex GO:0007016 cytoskeletal anchoring at plasma membrane GO:0007498 mesoderm development GO:0016021 integral to membrane GO:0045214 sarcomere organization GO:0060047 heart contraction GO:0043034 costamere
InterPro families	IPR006875 Sarcoglycan complex subunit protein
Orthology group	MCL11124

Nucleotide sequence:

ATGGAAGATAAAACCTTGAGCCAGAAACGACACGCGCCGGCGACCAGGAACCACATCGTC
TATACCGACCACAAAGGCAGAAAGAACAAGTTAAAGACGAAGGTTCGTGGAGACGATCCG
CGCGACGACCGTGAGGGTTGCGATCTCGATCACTTTCACTGGAAGTGGGTGTGGGGGTGG
CGAGGTGTTGTAAGTGGAGGGGGGGGGGAGAGTGTTGTAGGTGGGGGGGGGGAGGAGGAG
GATGCGATATCTCTTTGTGTTAACGTCAGTACTTTTGAATGTAGGACCGGAGCGCCACCA
GACCTGTCTGCGTTCTCTGACTCGGGGACCGCTGCGATCGAATGTCTCATACAGACTGAT
ACAAAGATCCCGTACGCGGACAAAATCACCCCGGAGCCGATCCTGAACAAAAACGGAGGG
CGCGATACAAAGGCGGACTCCATCAGGAACAGTTATAATAGCCAATTCAAAGTTGGCATT
TACGGCTGGAGAAAGAAATGTCTCTACATTCTAGTCATGACGCTGATGCTTATGATGATT
GTCAATCTCGCCTTGACGCTGTGGATTCTCAAAGTATTGGATTTCAATTCGGAAGGGATG
GGTCAGCTCCGTATAGTGCCGGGTGGGCTGCAGCTGCTGGGCCAGGCTCTCGTGCTGGAC
TCCCTGTTCGCGTCCAGCATCAAGTCCCGCCGCGGCCAGCCCATCGCCATCGAGTCCTCC
AGAAACTTTACGATCTCAACCAGAGACTCGCACGGCATGACACAGACCAGACTATTCTTA
GGTCATGATCGTCTAGAAGTGAACGTGGGTAAGCTGGAGGTGCGGGATAGTAGGGGAAGC
TTGGTGTTGGGGGCGGAGCGGGGCGCCGTCACCGTGGGCGCTGACAACCTGGTGGTGGCG
AGTCCGGCGGGCGCCTCCTTCACCACGGCCGTGCAGACTCCGCTCGTCAAATCGCCACCC
TCCAAGCCCTTGACACTGGAGTCACCAACTCGTTCTCTGGAGATGCACGCGGCGCAGAGC
ATCTCCATGGAGTCTCGTGCCGGAGACATCAGCGCCAGCTGCCTCACCACCTTCAGACTG
AGATCCATCGCTGGTGCGATAAGACTGGACGCTCCGAGCATATACATGCCCAAGTTGAAG
TCGGCACTACCCCTGCCCCCGTCGGCGCACACCCACGACCCGCATCATCAGAATATCTAC
CAGCTGTGTGCGTGCGCCAACGGCAAGCTGTTCCTGGCGCCACCTCACGGAGTCTGCGCG
GCCAGAGATGAAAGCTTGATCTGCCGATGA

Protein sequence:

MEDKTLSQKRHAPATRNHIVYTDHKGRKNKLKTKVRGDDPRDDREGCDLDHFHWKWVWGW
RGVVSGGGGESVVGGGGEEEDAISLCVNVSTFECRTGAPPDLSAFSDSGTAAIECLIQTD
TKIPYADKITPEPILNKNGGRDTKADSIRNSYNSQFKVGIYGWRKKCLYILVMTLMLMMI
VNLALTLWILKVLDFNSEGMGQLRIVPGGLQLLGQALVLDSLFASSIKSRRGQPIAIESS
RNFTISTRDSHGMTQTRLFLGHDRLEVNVGKLEVRDSRGSLVLGAERGAVTVGADNLVVA
SPAGASFTTAVQTPLVKSPPSKPLTLESPTRSLEMHAAQSISMESRAGDISASCLTTFRL
RSIAGAIRLDAPSIYMPKLKSALPLPPSAHTHDPHHQNIYQLCACANGKLFLAPPHGVCA
ARDESLICR