MonarchBase - Protein-coding gene

DPGLEAN11228 in OGS1.0

New model in OGS2.0	DPOGS202807
Genomic Position	scaffold2584:- 19701-27236
	See gene structure
CDS Length	2829
Paired RNAseq reads	685
Single RNAseq reads	1604
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA010454 (4e-27)
Best Drosophila hit	scab, isoform B (8e-45)
Best Human hit	integrin alpha-4 precursor (8e-44)
Best NR hit (blastp)	hemocyte-specific integrin alpha subunit 3 [Manduca sexta] (0.0)
Best NR hit (blastx)	hemocyte-specific integrin alpha subunit 3 [Manduca sexta] (0.0)
GeneOntology terms	GO:0007155 cell adhesion GO:0050839 cell adhesion molecule binding GO:0005886 plasma membrane GO:0004872 receptor activity GO:0008305 integrin complex GO:0007391 dorsal closure GO:0016477 cell migration GO:0007494 midgut development GO:0016340 calcium-dependent cell-matrix adhesion GO:0005925 focal adhesion GO:0007157 heterophilic cell-cell adhesion GO:0007160 cell-matrix adhesion GO:0016339 calcium-dependent cell-cell adhesion GO:0005055 laminin receptor activity GO:0007431 salivary gland development GO:0007507 heart development GO:0016021 integral to membrane GO:0007424 open tracheal system development GO:0008355 olfactory learning GO:0007613 memory GO:0005198 structural molecule activity GO:0040011 locomotion GO:0007611 learning or memory GO:0007411 axon guidance GO:0007614 short-term memory GO:0006911 phagocytosis, engulfment
InterPro families	IPR000413 Integrin alpha chain IPR018184 Integrin alpha chain, C-terminal cytoplasmic region, conserved site IPR013519 Integrin alpha beta-propellor IPR013649 Integrin alpha-2 IPR013517 FG-GAP
Orthology group	MCL12038

Nucleotide sequence:

ATGTTATTATGCGAGTGTAGTGAGATTTATGAAGTAAAAAATAAAATTACATTAAAACCA
GACGATGACTCGGAATATTTTGGCTACACAGTAGTTATGGATTCAAATGTATTAATTGTG
GGGGCGCCCAAAGCACGAAGCAAGCTGGCCAGAATGATGGCCACAGGACAGGTTTACAAT
TGCAAAATACTTGGTTTTGATGTTCACAACGTAACATGTTACCCTCTCGGAAGTAATGGC
ACAGCTCAAGACGCTATATTCGGACGGTTCGCGGGTTATTCTGATTTCTTCAGGGATGAT
ATGTGGTTCGGAGCTGTAATCGCTTTGGTTCCCAACGGAAAGTTATTGATTTGCTCACCG
AGATGGACAAATCCTTACAAGGATACACATTTACTCGCGAACGGTGCTTGTTACATCCAG
GCCCAAAGGAGAGCTTTAAGTCTCCTTCCACTAAAAGACATGACCCGACAAGCGTTTATG
ACACAGGGTTTAAGGAAGGAATACGGGGAATACGGCACCCATCTCAATTTTTATGCCTAC
GGTCAAGCAGGCTTCTCAGCAAAAGTAACAGAAAACAATAGCGTTATAATCGGAGCGCCA
GGCCTCTTGCAATGGACCGGTGGAATCGTGGAATACAAATATTACCCAGATCCAAGAAGT
GTCCTTTTTGGTTTGCAACCTATTACGAATCCATATTACACTCCAGATTTAGGACCGGAT
GATTACTTAGGATACAGTGTCGAGTCTGGCATATTTGAAAAAAACGGAAGGACATTGTAC
GTAGCTGGAGCTCCGAGATCCAAAGCTGGTTATGGCCAAGTGTTAATAATTGAGCCATCG
TTTAGAGAAAACGGACCTCTGAACATTAAAGCCAAGTTGATAGGTCATCAGCTGGGATCC
TACTTCGGAGCCAGTATGTCATGCACTGATATCAATGGTGATGGTATATCGGATTTGATG
GTGGGAGCACCAAATTTCGTCATTCACGATGGCAGTCTTCATTACGACCAAGGAGCGGTG
TTTGTCTATTTGACAGAAAGTCAGGAATCAAATTTCACTCTGATTGAACATGCTTATGTA
TTTGGATCAGCACGGAGTGGATCGCGGTTTGGAAGTTCGATCGCTAATTTAGGAGATATA
GACGGGGATGGTTACAATGACATAGCTATTGGTGCTCCATGGGAGAATGACGGTATCGGA
GCTGTATACATTTATCGAGGTGGCGCTGATGGGTTAGTCCAGCCATTTGTACAAAAAATT
TTTGTTGAAGAAGCGAGAAGTTTTGGTGTTTCGATTTCCAAGGGTGTAGATTTAACTAAC
GATAATTGTAATGAGCTAGCTGTAGGCGCTCTCAATTCCCGCACAGCATATATTTTCAAA
TGCATACCAACAATGCATGTGGACGTTTCTATTAAAGTCCCGGATGCAATGAACTTGCAA
CAAAACGCTACCAACTTCACTGCTTTATTCTGTGTTAATGCGCGCTCCAGTAAATTGTGG
CCTCATGTGAAAATAGACTTTATAGGCAGAATAGTTATTGATCCCGAGGAAAACAGGGCA
AAGCTAAAAGATGACACTGAATATGACATCACAATTGCACCAGGAGATGAGAATTGTGAT
GAACAAATTGTAGAAGTGATGACAACGGCAGACTTGTCTAAACCAATTTCGATGAAATTC
AATTTGGAGGTCAATGAATATCCGATAGAAAACTCGGATTTGCAGCACGCCGCTAGACTT
GAGGAAAACTCTATTCTAGAAACTACATTAGATATCCAACTGACGAGAGACTGTGGAGAA
GATCTTATCTGTAAGCCCTTGCTAGAAATGACATTGGAACCTTTAAATAGTCCATACGTT
CCAGGTTCAGAACACAGGCTTGGACTAAAAGTGACAGTTTTGAATAAAGAGGAGCCATCG
TATGGGGCCAAAGTTCATCTCATTGTTCCTTCTTCACCGAAGCGTCTCCCAACTGAATGC
TCTTTACAAAACTTAAATGTAACTTGTAGTCTTCCGGCTCCATTGATGAGAATGAATTCA
GTTGTATTTGAAATAGAATTGGAATATATACCTATAGACAGAGCTGAAGATCTACTAATA
ATAAAGGCTAGACTAGAAGATCCGCTATATGAAGATTCTGATATAGAAAGGGCATTCCAG
GAGTTAGACATTGTTATTACACCTAAAGCAAACTTTGCTATTAGCGGAAAATCGTTACCC
AACGCGACTATACTAGTGACAAGAGACAAACTTCATGGGGACGAAAATATAACATTTGTT
CATCAGTATGAGATCATGAATTGGGGACCATCTGACTGGTATCGTTTGAGAGTACAAATA
ATTTTATCCGAAAAGGTCAACATGTCGACTCGACTTAAAGAATGTTTGGAACTAGACCGA
GTAACTCATTGCGAATGGAAGCTTCCAGCAAAAGTTTCTTTGCCAGTGGTTCTACCTCTG
CGCTTTGATTTACATGATCACGGTGAATTCTTAGAAAAAAAAGTTGTGTACAACATCACC
TCTACAATGACCATTCTATTGGAAGATCAGAATAAATCTGTTTCGACGATCACAACTTTG
ATTTTGGAGCCTGAGCAACCCTATTGGCCAGTTATTGTTGGTTGCATAGCAGGCCTCCTT
TTGCTATCCGCTATTATTACAGGATTTTATAAATGTGGATTCTTCTCGAGAAAAAGAATT
GAAGATTTCCAAAGACTTCAGGAACACCAGGCGGATGGAGCTTCTCCATCAGATGCGAAT
ATTTCAGTTGGCTCACTTGGTGAGAACGATAAATCGACACAAGAATTAATCACTGATGAC
TCAGATTGA

Protein sequence:

MLLCECSEIYEVKNKITLKPDDDSEYFGYTVVMDSNVLIVGAPKARSKLARMMATGQVYN
CKILGFDVHNVTCYPLGSNGTAQDAIFGRFAGYSDFFRDDMWFGAVIALVPNGKLLICSP
RWTNPYKDTHLLANGACYIQAQRRALSLLPLKDMTRQAFMTQGLRKEYGEYGTHLNFYAY
GQAGFSAKVTENNSVIIGAPGLLQWTGGIVEYKYYPDPRSVLFGLQPITNPYYTPDLGPD
DYLGYSVESGIFEKNGRTLYVAGAPRSKAGYGQVLIIEPSFRENGPLNIKAKLIGHQLGS
YFGASMSCTDINGDGISDLMVGAPNFVIHDGSLHYDQGAVFVYLTESQESNFTLIEHAYV
FGSARSGSRFGSSIANLGDIDGDGYNDIAIGAPWENDGIGAVYIYRGGADGLVQPFVQKI
FVEEARSFGVSISKGVDLTNDNCNELAVGALNSRTAYIFKCIPTMHVDVSIKVPDAMNLQ
QNATNFTALFCVNARSSKLWPHVKIDFIGRIVIDPEENRAKLKDDTEYDITIAPGDENCD
EQIVEVMTTADLSKPISMKFNLEVNEYPIENSDLQHAARLEENSILETTLDIQLTRDCGE
DLICKPLLEMTLEPLNSPYVPGSEHRLGLKVTVLNKEEPSYGAKVHLIVPSSPKRLPTEC
SLQNLNVTCSLPAPLMRMNSVVFEIELEYIPIDRAEDLLIIKARLEDPLYEDSDIERAFQ
ELDIVITPKANFAISGKSLPNATILVTRDKLHGDENITFVHQYEIMNWGPSDWYRLRVQI
ILSEKVNMSTRLKECLELDRVTHCEWKLPAKVSLPVVLPLRFDLHDHGEFLEKKVVYNIT
STMTILLEDQNKSVSTITTLILEPEQPYWPVIVGCIAGLLLLSAIITGFYKCGFFSRKRI
EDFQRLQEHQADGASPSDANISVGSLGENDKSTQELITDDSD