MonarchBase - Protein-coding gene

DPOGS208540
Transcript	DPOGS208540-TA	3288 bp
Protein	DPOGS208540-PA	1095 aa
Genomic position	DPSCF300064 + 842874-850288
RNAseq coverage	585x (Rank: top 22%)

Annotation
*Heliconius*	HMEL008751	99.05%
*Bombyx*	BGIBMGA010354-TA	97.78%
*Drosophila*	tutl-PG	75.24%
EBI UniRef50	UniRef50_Q7Q3K8	75.41%	AGAP007928-PA n=7 Tax=Endopterygota RepID=Q7Q3K8_ANOGA
NCBI RefSeq	XP_317553.4	75.41%	AGAP007928-PA [Anopheles gambiae str. PEST]
NCBI nr blastp	gi\|158297293	75.41%	AGAP007928-PA [Anopheles gambiae str. PEST]
NCBI nr blastx	gi\|157113626	72.45%	turtle protein, isoform [Aedes aegypti]

Group
Gene Ontology	GO:0005515	1.9e-10	protein binding
KEGG pathway	mdo:100029182	1e-33
	K06766 (NEO1)	maps->	Cell adhesion molecules (CAMs)
InterPro domain	[150-251] IPR013783	1.1e-23	Immunoglobulin-like fold
	[527-623] IPR008957	4.2e-22	Fibronectin type III domain
	[152-240] IPR013098	8.4e-18	Immunoglobulin I-set
	[165-230] IPR003598	4.7e-16	Immunoglobulin subtype 2
	[250-337] IPR003599	1.5e-11	Immunoglobulin subtype
	[531-614] IPR003961	1.9e-10	Fibronectin, type III
	[34-139] IPR013106	1.4e-06	Immunoglobulin V-set
Orthology group	MCL10701		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS208540-TA
ATGGGCTGGCGCGCCGAGCAACCGCCGCACATCGCCGCCGGCCTGCTCTTCTTGCTGCTAGTCTACCTGCCGGTCACCTGCCATCAAGATCATCAAGATGCTGTACACATCACGGCGATCCTCGGAGAGAGCGTCGTATTCAACTGCCAGGTCGATTTCCCCGAAGACATCCCTGTGCCGTACGTGTTGCAGTGGGAGAAGAAGGTAGGCGAAACGGGACAGGACATTCCGATCTATATCTGGTATGAGAGCTATCCGACGCACAGCGGCGAAGGTTACGAGGGGCGAGTGTCGCGAGTGGCTCCTGACTCGCCCTACGGAGCGGCCAGCCTCAACCTCACTAATATTAGAGAGTCGGATCAGGGTTGGTACGAGTGTAAGGTGGTGTTCCTCAACCGATCCCCAAACCAACACAAGAATGGGACCTGGTTTCATCTGGACGTGCACGCGCCACCTAGATTCTCCATCACACCGGAAGACATTATATACGTCAATTTAGGTGATGCCATAATCCTAAACTGTCAAGCCGAAGGGACACCAACTCCCGAAATACTATGGTACAAAGACGCGAATCCAGTGGAACCTTCAGGCACTGTTGGCATATTCAACGACGGCACCGAACTGAGGATAAGCAACATCCGCCATGAGGACATCGGAGACTATACATGTATAGCGAGGAACGGGGAAGGTCAGGTGTCACACACGGCTCGCGTCATCATCGCTGGAGGAGCTGTCATTACTATGCCACCAACGAACCAAACGAAACTGGAAGGGGAAAAGGTACAATTTTCTTGCGAAGCGAAGGCTCTACCGGGAAATGTTACTGTGAAATGGTTCCGCGAGGGGGCGCCAGTGGCTGAAGTGGCGGCTTTGGAGACCCGCGTCACGATCAGACGAGACGGAGCCCTGGTCATCAACCCCGTGGCAGCGGACGATTCCGGCCAGTACTTGTGCGAAGTGTCCAACGGCATCGGCGATCCCCAAAGCGCCTCTGCGTATCTCAACGTCGAATATCCAGCGAAGGTGACTTTTACGCCAACAGTACAATACCTGCCGTTCCGGTTGGCGGGAGTAGTTCAGTGTTACATAAAAGCCAACCCGCCCCTTCAGTATGTCACGTGGACGAAGGACAAAAGACTGTTGGAGCCGTATCAGACCAAGGACATAGTTATCATGAACAATGGCTCGCTGCTGTTCACCCGCGTCAATCAAAACCATCAAGGAAGATACACTTGTACGCCGTACAACGCCCAAGGGACGCAAGGGTCTTCAGGCCCTATGGAGGTGCTAGTACGTAAACCGCCAGTATTCACAGTGGAACCGGAACCTTTGTATCAGAGAAAAGTAGGAGAATCAGTGGAAATGCACTGCGAGGCTCAAGAGGCTGAGGGGACGCAGCGACCGAGCGTAGTGTGGAGGCGACGAGATGGACTCCCTCTACAGAAGAGTCGAGTGAGGGCGCTGGGCGGCAACATCACCATCGACACGCTCAGGAGACAGGACTTCGGAATATACCAGTGTGTGGCTTCCAACGAGGTGGCGACGATAGTAGCGGACACTCAGCTCGTCATAGAGGGCACGCAGCCCCATGCGCCATACAACGTGTCAGGCACGGCCACCGAGTTCCAGGTGACACTCCGATGGCAGCCAGGCTACGCGGGGGGACCGGACTATAAACAAGACTACACCATATGGTACAGAGAGGCTGGCTTCTCAGAGTGGACTAAAGTACCAGTCACGCCATCTGGTGCCACCTCCGTGACAATAAATCGTCTCCAGCCCGGTACGACTTACGAGTTTCAAGTGAACAGTAAGAACACGATCGGTGAGGGGATGATGAGTAAAGCTATCACTATAAGGACTCTCGACGTAGGTGCCAAGCCAAAGGCTGCCCCCACCGCCGCGGGGCCGATAGATGAAAAGATATTTCAGAACGCACCCGAAGGCTCCGGTCCTAAGTCCGGACCCCCCCGCAACCTGACAGTGACAGAGGTCCACAATGGTTTCCTGATAACATGGCAAGCGCCTCTGGAGCGGTCTCACTTGGTCCAGTACTACACTATCAAGTACCGCACAGACGCTCAGTGGAAGACACTCAATAGAGGACAGATAAGGCCCGAGGAGACCAGCTACTTGGTCAAGAATCTAGTCGGAGGTAGGACGTATTATTTCCGCGTGCTGGCGAACTCCGCGACCAGCTACGAGAGTTCCGAGGAAGTGAAGTTTCCTGTGCCGGCGCGGGTCAAACACAAGGCCATAACGGCCGGGGTCGTTGGAGGGATATTGTTCTTCATAGTGGCCATCATACTGTCCGTCTGCGCGGTCAAGATATGCAATAAGAGGAAACGCCGCAAGCAGGAGAAAGCATACAACATGGTAGCCGCGCGACTCACCGACCTGCGCGCGGCTGACAGCACTCAAGTGCCTTTTAAGAAATTTAGAGAAAGCGGAATATCGAGTTTAGTACAATGTTTGCGATTCACGGCGAACTGGGTGTGGCCGGCGTCTCGATGTGGCGACGAGTCCCGCGTTTGGCCGGCGCCCGTCGCCTCCCTGGCGGAGTCTCCAGCGCCCTCGCCGGCTCCCTCCGCCGCGCCTTCCTCCTCAGACGACGGCGGGTTCCTCCCGCGACTGCGTGCGCCGCTATCCCCCGCCGCCGCGCCGCCTCTGTTCCGCGCCTCCTCGCCGGCCCTCACCCTGGCCTGGCCGCCGTGGCCGCCCTGGCCGTCCTGGCCGGTGTGGGCGCCCGCCTGGACTCCGTGGTCGCCTCTCCACATCTCCGACCTCAGCTCGGTACCGTTCCCCAGTTCGGCGGACGGCTCGTTTCCGACGCCCCCCTCTTTCCGCTCCCGCCCCCCACGCGTGTCCCTCGATGTCCCGTCCCGAGTGTGCGTGCTCGGTCGCCCCCGGTCCCGGCCGCCGCAGCCGCACGGGAAGCCTGGCCGAGTGGCGTCCCCCGCCCTACCGGCCGCCGCCGCCCGTGCCCGTCTCGCGGCCGGGGCGGGGCGGCTCGAGGCGGCGGCGGAGGCGGCGGCCGCCGAAGCCGCCGACGCGGGCTCCGTGGACGTCCACTACGAGTTCGATCGCGCGACTCGCACCCCGACGCCCTCGACGCCGGAACGAACCCGCGCCCGTCCCTCGCGAGACGACGTAGAGGCTCGCGTGCGCGCTATGAAGGAGGAGTTCCTGGAGTTCCGCAAGCGCCAGGCGCTCCGCCGTCGCTCCCCGGAGCCGCTGTCCCCGCTGGCGCCGCTGTCCTCGCTGGCCCCCGCCGAGACGGTGTGCTGA

Protein sequence:

>DPOGS208540-PA
MGWRAEQPPHIAAGLLFLLLVYLPVTCHQDHQDAVHITAILGESVVFNCQVDFPEDIPVPYVLQWEKKVGETGQDIPIYIWYESYPTHSGEGYEGRVSRVAPDSPYGAASLNLTNIRESDQGWYECKVVFLNRSPNQHKNGTWFHLDVHAPPRFSITPEDIIYVNLGDAIILNCQAEGTPTPEILWYKDANPVEPSGTVGIFNDGTELRISNIRHEDIGDYTCIARNGEGQVSHTARVIIAGGAVITMPPTNQTKLEGEKVQFSCEAKALPGNVTVKWFREGAPVAEVAALETRVTIRRDGALVINPVAADDSGQYLCEVSNGIGDPQSASAYLNVEYPAKVTFTPTVQYLPFRLAGVVQCYIKANPPLQYVTWTKDKRLLEPYQTKDIVIMNNGSLLFTRVNQNHQGRYTCTPYNAQGTQGSSGPMEVLVRKPPVFTVEPEPLYQRKVGESVEMHCEAQEAEGTQRPSVVWRRRDGLPLQKSRVRALGGNITIDTLRRQDFGIYQCVASNEVATIVADTQLVIEGTQPHAPYNVSGTATEFQVTLRWQPGYAGGPDYKQDYTIWYREAGFSEWTKVPVTPSGATSVTINRLQPGTTYEFQVNSKNTIGEGMMSKAITIRTLDVGAKPKAAPTAAGPIDEKIFQNAPEGSGPKSGPPRNLTVTEVHNGFLITWQAPLERSHLVQYYTIKYRTDAQWKTLNRGQIRPEETSYLVKNLVGGRTYYFRVLANSATSYESSEEVKFPVPARVKHKAITAGVVGGILFFIVAIILSVCAVKICNKRKRRKQEKAYNMVAARLTDLRAADSTQVPFKKFRESGISSLVQCLRFTANWVWPASRCGDESRVWPAPVASLAESPAPSPAPSAAPSSSDDGGFLPRLRAPLSPAAAPPLFRASSPALTLAWPPWPPWPSWPVWAPAWTPWSPLHISDLSSVPFPSSADGSFPTPPSFRSRPPRVSLDVPSRVCVLGRPRSRPPQPHGKPGRVASPALPAAAARARLAAGAGRLEAAAEAAAAEAADAGSVDVHYEFDRATRTPTPSTPERTRARPSRDDVEARVRAMKEEFLEFRKRQALRRRSPEPLSPLAPLSSLAPAETVC-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: