MonarchBase - Protein-coding gene

DPGLEAN11698 in OGS1.0

New model in OGS2.0	DPOGS216056
Genomic Position	scaffold665:- 69732-72302
	See gene structure
CDS Length	1950
Paired RNAseq reads	2745
Single RNAseq reads	7076
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA008862 (3e-73)
Best Drosophila hit	larval serum protein 2 (2e-27)
Best Human hit	ND
Best NR hit (blastp)	hexamerin 4 [Tribolium castaneum] (1e-50)
Best NR hit (blastx)	hexamerin 4 [Tribolium castaneum] (6e-60)
GeneOntology terms	GO:0005507 copper ion binding GO:0031404 chloride ion binding
InterPro families	IPR013788 Arthropod hemocyanin/insect LSP IPR000896 Hemocyanin, copper-containing IPR008922 Di-copper centre-containing IPR014756 Immunoglobulin E-set IPR005203 Hemocyanin, C-terminal
Orthology group	MCL40341

Nucleotide sequence:

ATGTTTTTGCTACTATTACTCCTGGGAACAGTTAGATCAGCTCCTTTAGATGAATTTCAG
ACATTCGTAAACAATGAGGAAGTAGCATTTAATGATGAGGCTTATATCAAATATATTGTT
CCATCCGGTTATTCTCCACACAAATCACAAAAACAATCTAAAGTAGAATTGTTGGATTTT
GCAAATAAGGACAATGAACATTATGAGATCTTAAAAAAACATATTCTAGCTGGTAGTATT
AAGAATGGTTTGACATTTAATATATACGACGACAACATGAGAGAAGCAAGCATTGCTTTG
TTTCGATTATTACAATATTCTGAAAAAGAGCAAATAAGCAAAATAAAGGAATGGGCATTG
GAGAATATAAATCATGATATCATAGATTATGCCTGGAGATTAGTCTCGCTTTACAGAACT
GATGTTATGAAAGAACAGGAACCACCTTATGTATCCAAACCGAACTATTTCATAAACAGC
GAAGCTATTTACAAAGCTTTAAAATTAAAAATTAGCAACGGAAAATTCGATTCTCAAACA
GCAAGTGTTCAACAGTTCTATAGAAGTGACGATGTTATAACGATTAATGCTAACTATTCC
GGATGGAACTTATTAAATGAAGACTGTAACGATAAACTTGATTACTTTAGAGAAGACATA
GGTCTTAACAGCTACTACTACGGTGTCCATCTTCAATATCCATTTTGGATGAATAACGAT
GAATTAACTGGCATTGATCCAAAATATGCAGAACAATACTATTACATACATAAGCAATTG
ATGGCTAGGTATAGTTTAGAAAAGGAACACCCTGATTATAATAATTCTCAATTTGAATCT
AAATGCTACGAGGATTTCATACCTTACTTAGTACATGACAACGGCTTGAACTTTGCAGTA
AGATCAACTATAAAGAAGGAGAATAGCGAGGAATATGCACGTTTAAAGTCTGTAGATATA
GCAATAAGAGAATGCATTGCAAGAGGATTTATTTACATGGAAAATAGCACACGCGTTACA
TTAACTGATGAAAACTTCGTTGATCTACTATCAAAATTAATTAGGGTAAATTTGGAAAGC
GTGTCTATGGCAAAAATAATAAGATCTCTTTATGGTTACGGAGGCAAAGGATATTTTAAA
AATGCGTATGTTCCGGCACCTTCAGTAATGCATCATCCACAAACTACGCTGCGCGATCCC
ATGTATTGGTATATAATTCAAACTATGCTAGATTACTTTACGGATTACTCAAACTCATTG
GAACCATATAATTTTTCCAATTATGAGACCGATGAATTTGTTATAGTCAACCACAATTTC
ACAAAAATTATAACTTATTTTGAAGACTTCCAAATCGGTCTTAACAAATTATTTGAGAAA
GGATATGATTTTACTTTCTCCTCTTTAATTTTTACGGCTAGACAAAAAAGATTGAAACAT
ATACCCTTTAGCTTTGAATTTAACGTTGAATCTAAATCCAATAAGTCCTGTATTGTTAAA
TTATTTCTCGGTCCTAATTGTGAGGGTATAAATTGCTGGAATGATTATTCAAAATATTTT
GAACTTGATACTTTCACTTATTACATGGAAGAAGGGCTTAACCTCATTAAATGGTCCCCA
GAAGCTTCAAATAAATATTCGTATGATGATTATTTCAATGTAGGGTTAAAGTCTTTGAGA
AAAAATAAGTTTGATTTGTTCAGATTTCCGGAAAATATGTTAATACCTAAAGGAACTGAA
CAGGGATTGAACATTACATTGTTCGTCTTACTTATGCCTGAGCAATATATAACTGAATTT
AAAGAGACAGACATTTTAGGTTTTCCATTCCACCGACAAGCATTAGTAAATGATAAATTG
CTTTACAAAAATTACAAGTTTTATAACATTGCGATATACCATAAAGAAATTAATAACCCG
GGAAGTCACTTCTCGGCACATCTAAATTAG

Protein sequence:

MFLLLLLLGTVRSAPLDEFQTFVNNEEVAFNDEAYIKYIVPSGYSPHKSQKQSKVELLDF
ANKDNEHYEILKKHILAGSIKNGLTFNIYDDNMREASIALFRLLQYSEKEQISKIKEWAL
ENINHDIIDYAWRLVSLYRTDVMKEQEPPYVSKPNYFINSEAIYKALKLKISNGKFDSQT
ASVQQFYRSDDVITINANYSGWNLLNEDCNDKLDYFREDIGLNSYYYGVHLQYPFWMNND
ELTGIDPKYAEQYYYIHKQLMARYSLEKEHPDYNNSQFESKCYEDFIPYLVHDNGLNFAV
RSTIKKENSEEYARLKSVDIAIRECIARGFIYMENSTRVTLTDENFVDLLSKLIRVNLES
VSMAKIIRSLYGYGGKGYFKNAYVPAPSVMHHPQTTLRDPMYWYIIQTMLDYFTDYSNSL
EPYNFSNYETDEFVIVNHNFTKIITYFEDFQIGLNKLFEKGYDFTFSSLIFTARQKRLKH
IPFSFEFNVESKSNKSCIVKLFLGPNCEGINCWNDYSKYFELDTFTYYMEEGLNLIKWSP
EASNKYSYDDYFNVGLKSLRKNKFDLFRFPENMLIPKGTEQGLNITLFVLLMPEQYITEF
KETDILGFPFHRQALVNDKLLYKNYKFYNIAIYHKEINNPGSHFSAHLN