MonarchBase - Protein-coding gene

DPOGS203737
Transcript	DPOGS203737-TA	2982 bp
Protein	DPOGS203737-PA	993 aa
Genomic position	DPSCF300010 - 473844-489751
RNAseq coverage	865x (Rank: top 15%)

Annotation
*Heliconius*	HMEL002968	82.60%
*Bombyx*	BGIBMGA013369-TA	75.15%
*Drosophila*	Vinc-PA	56.39%
EBI UniRef50	UniRef50_O46037	56.39%	Vinculin n=18 Tax=Pancrustacea RepID=VINC_DROME
NCBI RefSeq	XP_001355231.2	57.01%	GA17230 [Drosophila pseudoobscura pseudoobscura]
NCBI nr blastp	gi\|198470122	57.01%	GA17230 [Drosophila pseudoobscura pseudoobscura]
NCBI nr blastx	gi\|157111402	56.79%	vinculin [Aedes aegypti]

Group
Gene Ontology	GO:0007155	4.9e-302	cell adhesion
	GO:0015629	4.9e-302	actin cytoskeleton
	GO:0005198	4.9e-302	structural molecule activity
KEGG pathway	dpo:Dpse_GA17230	0.0
	K05700 (VCL)	maps->	Shigellosis
			Amoebiasis
			Regulation of actin cytoskeleton
			Leukocyte transendothelial migration
			Bacterial invasion of epithelial cells
			Adherens junction
			Focal adhesion
InterPro domain	[28-992] IPR006077	4.9e-302	Vinculin/alpha-catenin
	[776-786] IPR017997	3.1e-51	Vinculin
Orthology group	MCL13378		Single-copy universal gene

Nucleotide sequence:

>DPOGS203737-TA
ATGCACGTTTATCTTTTACTACATCTTGAACACGCGCCGAGATGGGAAGCTGAGAGGAAAACTGCAGCTTGGATGGAAGCTATAGACAGGGTATCTCGTCTCGTCATACTCCATGAGGAAGCTGAGGATGGGAACGCCATGCCGGACCTGGCCAGGCCGGTACAGGCCGTCTCACTGGCCGTCAACAACCTCGTTAAGGTGGGTCACGAGACCATAGAGTCAGCTGATGACAATTTACTCCGGGCCGACATGCCGGGGGCTCTGCACAGGGTCGAGGGGGCGGCGACACTACTGCAACAGGCATCTGACATGCTCAGAGGAGACCCATACTCAGGACCCGCCAGGAAAAAGCTCATCGAAGGCTCACGGGGTATCCTCCAAGGCACGTCAGCTTTGCTTCTTTGCTTCGACGAGTCCGAAGTTAGGAAAATTGTCAAGGAGTGTAAAAAGGTGTTAGACTATCTAGGTGTTGCAGAAGTGATCGACACCATGGAGGACCTCGCTCAGTTCCTGCGAGATATCTCACCAGCTCTATCCAAAGCAGCGAGGGAGGTGGCGGCGCGTGCAGCTGAACTGACCCACCCTCCGCACGCGGAGACCCTCGCCCGTTGTCTGGAGAGCGTCAAGCGACTTGCCCCAGTACTCATCTGCGCCATGAAGACATACATACACATACTGTCAGAAGGAGGCAAAGGCATTGAAGATGCGGCGGAGAACAGGAACTACCTGGCCCAGAGGATGGCGGACGAGATACATGAAATCATCAGGGTGTTACAATTGACGTCGTACGTGGAGGACGGCGGCGAGAAAGACAACATCGCCGTGTTGAAGGCCTTACAGAGTCTGGTGCACAGTAAAGTGCTCGCCGCTAATGAGTTTCTTGATGACCCTGAGGCTCAGCGGACCAGTGCCGGCGAGAGAGCTCTACGAGCAGCGCTCACGGCCGCTGCGCGGGCCGCCGAACACACCGACACACATCTCGCTGACAGACTGCGACGAGCTGCCAGGAACGGCGGTATCAACGCGGACCTGCTGTGCGACGAGCGGCAGTACGGACGAGGGAGGGAGCAGAAGGCGCTGACCCTGGCCGCGGAGCTGAAGGCGCAGCTGAGGGACGTACAAGGAACCGTGAACGAGGGAGTGCGAGCCGCGGAGAAGATACAAGGAGGGAAGACCATAGCCGCCAGATTGGAAACCGCCCACAAGTGGCTGGTGCACCCCGCGTGTGATCCCACCACCAGGGTCGAGGGACAGAAGGCTATCAACAGTATCGTGTCGCAGGGACAGAGGATAGCTGACAACCTCCATGGGCGGGAGAAAGCCGAGGTGATGCAGCTGTGCTCCGAGGTACAAAGGCTGGCCGACCAGCTCGCTGACCTCTGTATGACTGGAGACGGCGACCAGGAGGAGGCCAGGACGCTCACACGGTCGCTGACCGGCAAGCTGCACGAGCTGAAGCGTGCCATGGAGCGAGCGGTGGTCAACAGAGTGGTGGAGGACTTCATAGATGTGGCCGCTCCTCTCAGACACTTCACTGACGCTGTGAACGCGCCTGAAGGTACACCGAACCGCGAGGGTAACTTCCACGACAAGGCCACGTCCCTGGCCAGCTTCAGCTCCCGAGCCGCGGCCGCCGCCGCCATGGTCGCCGCAGACATCACACACGACAAGAGACTCGTCGACCAGCTGCTGCAACACGCGCAGGAGGTGGAGAAGTTATCGCCTCAGCTGATCTGCGCCGGCAAGATCCGTCTGCACTACCCAGAAAGCAAAGTGGCCGAGGAACACTTCAACAACCTGAAGTCTCAATACTCTGACGCCGTTCTTCGCTGTCGCGACCTCTGCGACCAGGCGGTCGACCCGCTGGAGTTCGTCCGCACCGCTGGTGAACTCATTCAGAAGCACACGTATCTGTGCGAGGACGCCATAAGGAACAACGACTCGCAGAAGATGGTGGACAACACATCGGCCATCGCCAGGTTGGCGAACCGCGTGTTGCTGGTGGCTGGTCGCGAGCGGGATAACACAGAAGACGGAGCCTTCAGCGCCGCCCTGGGGACAGCCCAGAGCAGGCTGCAGGCGGCGCTGGCGCCCGCCGTCCGAGCCGCCAAGAGTGTCGCCCTCGGGCAACCCGGCGCCCCCCCACACTGGAGAACCGCTAACGGAGAGACCTTTCTTGGAATATTAGTTATGATTACACTTAATCTTTTATGTCTGTATCTGAACACCCGACCTCGGACTGGAAATCTGGTGGATAAATCCTGTTTATGCATCCATAGAGTATCATCCAAGCCATCAGCGGTGTGGAGGAGGCCCTCTCCCGTCACTACGCCCCTCCCCCTCCGTCCCCCCCTCCGCCGCCGTCGCTCCCCCCTCTCTTCCATGTCGGCGCCCCCTCGCCCGCCGCCGCCGGACACAGACGACGAGGGTGAAGACATCTTCAGAAGACAGCCTCACCCGAGCCAACCTATCTTGGTGGCGGCCCACAACCTGCACAAGGCGGTCCGCGAGTGGTCCTCCAAAGACAACGAGATCATCGCCGCCGCCAAGCGGATGGCCATACTCATGGCGCGCCTGTCCGACCTCGTGCGCTCCGACTCCAAGGGAAGTAAGCGTGAGTTGATAGCTACTGCGAAGGCTATAGCTGAGGCTTCAGAGGAAGTAACTCGCCTCGCTAAGAAACTGGCTCTAGAGTGTACTGATAAGAGAATCAGAACTAATCTCCTCCAGGTGTGTGAACGTATCCCCACCATCGGCACTCAACTCAAGATACTGTCAACTGTCAAGGCCACTATGCTCGGAGCCCAGGGTAGCGAAGAAGATCAAGAGGCAACCGAGATGTTGGTCGGCAACGCTCAAAACTTGATGCAGAGTGTTAAGGAAACTGTGAAGGCCGCGGAGGGAGCCTCCATCAAGATACGGACGGAGCAAGGAGCTTATAGACTGCGTTGGGTGCGACGCTCGCCCTGGTACCAGATATAG

Protein sequence:

>DPOGS203737-PA
MHVYLLLHLEHAPRWEAERKTAAWMEAIDRVSRLVILHEEAEDGNAMPDLARPVQAVSLAVNNLVKVGHETIESADDNLLRADMPGALHRVEGAATLLQQASDMLRGDPYSGPARKKLIEGSRGILQGTSALLLCFDESEVRKIVKECKKVLDYLGVAEVIDTMEDLAQFLRDISPALSKAAREVAARAAELTHPPHAETLARCLESVKRLAPVLICAMKTYIHILSEGGKGIEDAAENRNYLAQRMADEIHEIIRVLQLTSYVEDGGEKDNIAVLKALQSLVHSKVLAANEFLDDPEAQRTSAGERALRAALTAAARAAEHTDTHLADRLRRAARNGGINADLLCDERQYGRGREQKALTLAAELKAQLRDVQGTVNEGVRAAEKIQGGKTIAARLETAHKWLVHPACDPTTRVEGQKAINSIVSQGQRIADNLHGREKAEVMQLCSEVQRLADQLADLCMTGDGDQEEARTLTRSLTGKLHELKRAMERAVVNRVVEDFIDVAAPLRHFTDAVNAPEGTPNREGNFHDKATSLASFSSRAAAAAAMVAADITHDKRLVDQLLQHAQEVEKLSPQLICAGKIRLHYPESKVAEEHFNNLKSQYSDAVLRCRDLCDQAVDPLEFVRTAGELIQKHTYLCEDAIRNNDSQKMVDNTSAIARLANRVLLVAGRERDNTEDGAFSAALGTAQSRLQAALAPAVRAAKSVALGQPGAPPHWRTANGETFLGILVMITLNLLCLYLNTRPRTGNLVDKSCLCIHRVSSKPSAVWRRPSPVTTPLPLRPPLRRRRSPLSSMSAPPRPPPPDTDDEGEDIFRRQPHPSQPILVAAHNLHKAVREWSSKDNEIIAAAKRMAILMARLSDLVRSDSKGSKRELIATAKAIAEASEEVTRLAKKLALECTDKRIRTNLLQVCERIPTIGTQLKILSTVKATMLGAQGSEEDQEATEMLVGNAQNLMQSVKETVKAAEGASIKIRTEQGAYRLRWVRRSPWYQI-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: