MonarchBase - Protein-coding gene

DPOGS200071
Transcript	DPOGS200071-TA	3270 bp
Protein	DPOGS200071-PA	1089 aa
Genomic position	DPSCF300044 - 473855-485755
RNAseq coverage	2106x (Rank: top 6%)

Annotation
*Heliconius*	HMEL015547	8e-82	53.61%
*Bombyx*	BGIBMGA004592-TA	0.0	85.05%
*Drosophila*	cals-PB	2e-135	51.08%
EBI UniRef50	UniRef50_E2A5K2	7e-169	59.70%	Calsyntenin-1 n=11 Tax=Pancrustacea RepID=E2A5K2_CAMFO
NCBI RefSeq	XP_970864.1	2e-180	61.67%	PREDICTED: similar to AGAP007103-PA [Tribolium castaneum]
NCBI nr blastp	gi\|91084931	4e-179	61.67%	PREDICTED: similar to AGAP007103-PA [Tribolium castaneum]
NCBI nr blastx	gi\|91084931	1e-177	61.67%	PREDICTED: similar to AGAP007103-PA [Tribolium castaneum]

Group
Gene Ontology	GO:0016020	2.7e-20	membrane
	GO:0005509	2.7e-20	calcium ion binding
	GO:0007156	3.8e-14	homophilic cell adhesion
KEGG pathway	dre:114424	2e-10
	K05689 (CDHE, CDH1)	maps->	Pathogenic Escherichia coli infection
			Thyroid cancer
			Bacterial invasion of epithelial cells
			Adherens junction
			Melanoma
			Pathways in cancer
			Endometrial cancer
			Cell adhesion molecules (CAMs)
			Bladder cancer
InterPro domain	[232-453] IPR008985	1.3e-27	Concanavalin A-like lectin/glucanase
	[50-154] IPR015919	2.7e-20	Cadherin-like
	[54-155] IPR002126	3.8e-14	Cadherin
	[245-385] IPR013320	5.9e-08	Concanavalin A-like lectin/glucanase, subgroup
Orthology group	MCL10948		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS200071-TA
ATGGTGATTGACGAGAACGAGGCACGTCTCCGTGTACGTTACCCACTTAACTGTGAGAAACGCCGTAATTACAAGTTCGACATCGCCGCTGTTGGTTGTGATGGGTCTTACTCCAACACTGTACCGGTCCATATAACGGTGACGGATGTGAACGAATTCGCTCCGGTCTTCAATCAGGCTGCCTACGTCCGGTCAGTGGATGAGGGGAAGGTGTACGACGAGATCGTACGTGTGGAAGCGACTGATCGCGACTGTACCCCGCGTTACGGTGACGTCTGCAAGTACGAGATTGTAAACGATGGAGACAGGAACCAGCCGTTCGCTATCGACAATGAAGGTGTTATTCGTAATACGGAACCTCTGGAATACGATAAATCCCACAACCATATCCTGTCCGTGGTTGCATACGACTGTGGGATGATGCCATCCGCACCAGTTCTGGTCACTATCAAGGTCAACAAACCCTGCCGAGCTGGGTGGAAAGGTCTTGCTGAGCGTGTGGATTACGCTCCTGGAACAGGTCCTCTAGCACTTTTCCCAGCTGCTCGTTTAGAAGCATGTTCTAGCGACGAGCGCTGTCCAGGTGTTACAAGAATCCAAGCCGCTGTAACTCTCCAGGCTTCCAGAGCTGGTGTTGCCTGTGACAGGGACACATATACCTTACACGCCCAAAGAACAGTATGCGGTCTGGATCCCAAAACAGTGGATTTGCTACCCAGCCCTGGCGTAGGAAACGAGTGGGCGAAGTCTCTCAAACCCGACTCAGGTCGTGACGGCGAGCAGTTGTTCGAGTTCGACGGCGAGACATCAGCCGTTGTACCAGAATCAATACTACCACATTCCCTCGGCAGCACTTTCTCCGTCAGCACCTGGCTAAGACACGCCCCGCCCCCAGACCACGATAAGCACCGCAAGGAACACGTGCTGTGTCTCGCCGACGACCACAAAATGAATCGTCACCACTACGCGCTGTTCGTCCGCAACTGTCGTCTGATACTTCTTCTGAGACGTGACTTCGGTGAAGGTGATCTGAACATCTTCAGACCAGCCGAGTGGAGGTGGAAGCTGCCAGAGGTGTGCGACAACGAGTGGCATCACTACGCTATCAACGTGCGCTTCCCCAACGTAGAGCTGTACGTGGACGGTGAGCCGTACCGCGGCGAGAGGGGCCCGGAGGTCATCGACGACTGGCCGCTGCACCCGGCTCACGGCGTCAACACCACCATGGTAGTGGGCGCCTGCTGGCAGGGTACGGAGAGTGATATGAAGCACCATCTCCGCGGTTGGCTGGCGGGGCTCGGAGCATTGCCGGGGGCTGTTCAGCCGGCAACGGCGCTGAGATGCGCGGCCCGCTGTAGAGAGGGACTCAGTCTAGCGCCTGATCTATGTCGTGACGGCGAGCAGTTGTTCGAGTTCGACGGCGAGACATCAGCCGTTGTACCAGAATCAATACTACCACATTCCCTCGGCAGCACTTTCTCCGTCAGCACCTGGCTAAGACACGCCCCGCCCCCAGACCACGATAAGCACCGCAAGGAACACGTGCTGTGTCTCGCCGACGACCACAAAATGAATCGTCACCACTACGCGCTGTTCGTCCGCAACTGTCGTCTGATACTTCTTCTGAGACGTGACTTCGGTGAAGGTGATCTGAACATCTTCAGACCAGCCGAGTGGAGGTGGAAGCTGCCAGAGGTGTGCGACAACGAGTGGCATCACTACGCTATCAACGTGCGCTTCCCCAACGTAGAGCTGTACGTGGACGGTGAGCCGTACCGCGGCGAGAGGGGCCCGGAGGTCATCGACGACTGGCCGCTGCACCCGGCTCACGGCGTCAACACCACCATGGTAGTGGGCGCCTGCTGGCAGGGTACGGAGAGTGATATGAAGCACCATCTCCGCGGTTGGCTGGCGGGGCTCGGAGCATTGCCGGGGGCTGTTCAGCCGGCAACGGCGCTGAGATGCGCGGCCCGCTGTAGAGAGGGACTCAGTCTAGCGCCTGATCTATGTACGTCAACACACACACAGAGACATGCATTACACACACACACACATCTGAAGTCGGTGTCCGTGGAGGGTGACAGCGCCTCGGAGGTGGAGACCTTAGTGAGGCGGGTGGCGTATGGAGACGCCAGGGTGTTCCCGACGCCTGGAAGACGAAACGTACACCTGGCCACCACTATCACTTGTGATAACGGCCGAGTCATCAAGGCCCGCCCGGCCGAGTCCTACGTGATGGTGCTCGCGCCTCAGACGCCCACCATCCTGCTGAACGGCAGTGCGGATGCTGCTCGCGACTACGCACACTTCAGGGCAGGCCTGCCGGTGTTCCCTGATATAAGGGTGAGGGTGCTGGCCAGGAGCGGGGACGATATCAAAGAAGCGGAAACACAGAAGCTAGATTCGTGCGTGGTGTCGGTGTACCCCGCCCTGAACCCAGACCACGAGGCGTTGGCGCTGAAGAGCACGCCGGCCGACGACATCAGAGCGACCCTCACCAGGGACGGAGTCAGTCTTACAGGAGCTGATACGGTAGAAAACTACCAACAGGTGTTAAGAGAGATAGAGTACAGCAACAAGAAGCCCGCCTACTACCTCAACAGGGTGTTCAAACTGACGTGCTCCGAGCTCAACGGACGGTTCACGAGCAACGAATACGTACAGACGCTGACGGTGGAGCACCCGAGGGCGGCGTCGGACACCCGGGCGCTCCGCCCCGCCGGACTCGCAGACAAAATGGACGTCGTTAGGGAACATACCAGCAACAACATAGAGCCCGCCGTGGCTATGAATGTGCCGCGGGCGTTTGCATCACACTCGCAGCACTCGCAGCACGCGGCCGAGATCCCGGCGGCGCGGGTCCTGGACCTGCACGAGCGGCACAACTCCAACAATGTGGCAGTGGTGATAGGAGCGGTGATGGCGGGCGCGGTGGTAGCTCTCGTGGTGGTGGTCGCGGCCCGCCTGCGAGCCGCCAGGCCTTCGCCCCTGGCTAGGCCTTCGCCCCGACCCCGCCCTCTACGAGCTAATGACACAGAAATGGCTTGGGACGACTCCGCCCTCACCATCACCGTCAATCCGATGGAGGAGGCTACTGAGTGCGTCGTATCTCCTAGCCGAGTGTGTGAAGACAGTTCCTCGGCGGAATCCTGCTCGGATGAAGACTCCGATCACCACGACTCCTCCGACGAAGAAGGAGAGGTGATGGCCGGCAAGCAGCACAAGTACAGGAACATCAGCCAGCTCGAGTGGGACAACAGCACTATGTAA

Protein sequence:

>DPOGS200071-PA
MVIDENEARLRVRYPLNCEKRRNYKFDIAAVGCDGSYSNTVPVHITVTDVNEFAPVFNQAAYVRSVDEGKVYDEIVRVEATDRDCTPRYGDVCKYEIVNDGDRNQPFAIDNEGVIRNTEPLEYDKSHNHILSVVAYDCGMMPSAPVLVTIKVNKPCRAGWKGLAERVDYAPGTGPLALFPAARLEACSSDERCPGVTRIQAAVTLQASRAGVACDRDTYTLHAQRTVCGLDPKTVDLLPSPGVGNEWAKSLKPDSGRDGEQLFEFDGETSAVVPESILPHSLGSTFSVSTWLRHAPPPDHDKHRKEHVLCLADDHKMNRHHYALFVRNCRLILLLRRDFGEGDLNIFRPAEWRWKLPEVCDNEWHHYAINVRFPNVELYVDGEPYRGERGPEVIDDWPLHPAHGVNTTMVVGACWQGTESDMKHHLRGWLAGLGALPGAVQPATALRCAARCREGLSLAPDLCRDGEQLFEFDGETSAVVPESILPHSLGSTFSVSTWLRHAPPPDHDKHRKEHVLCLADDHKMNRHHYALFVRNCRLILLLRRDFGEGDLNIFRPAEWRWKLPEVCDNEWHHYAINVRFPNVELYVDGEPYRGERGPEVIDDWPLHPAHGVNTTMVVGACWQGTESDMKHHLRGWLAGLGALPGAVQPATALRCAARCREGLSLAPDLCTSTHTQRHALHTHTHLKSVSVEGDSASEVETLVRRVAYGDARVFPTPGRRNVHLATTITCDNGRVIKARPAESYVMVLAPQTPTILLNGSADAARDYAHFRAGLPVFPDIRVRVLARSGDDIKEAETQKLDSCVVSVYPALNPDHEALALKSTPADDIRATLTRDGVSLTGADTVENYQQVLREIEYSNKKPAYYLNRVFKLTCSELNGRFTSNEYVQTLTVEHPRAASDTRALRPAGLADKMDVVREHTSNNIEPAVAMNVPRAFASHSQHSQHAAEIPAARVLDLHERHNSNNVAVVIGAVMAGAVVALVVVVAARLRAARPSPLARPSPRPRPLRANDTEMAWDDSALTITVNPMEEATECVVSPSRVCEDSSSAESCSDEDSDHHDSSDEEGEVMAGKQHKYRNISQLEWDNSTM-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: