MonarchBase - Protein-coding gene

DPOGS204081
Transcript	DPOGS204081-TA	5430 bp
Protein	DPOGS204081-PA	1809 aa
Genomic position	DPSCF300200 + 259666-279080
RNAseq coverage	197x (Rank: top 47%)

Annotation
*Heliconius*	HMEL013144	0.0	59.39%
*Bombyx*	BGIBMGA010816-TA	0.0	60.79%
*Drosophila*	dsd-PB	8e-153	38.81%
EBI UniRef50	UniRef50_Q7QH41	4e-168	51.69%	AGAP003506-PA n=13 Tax=Endopterygota RepID=Q7QH41_ANOGA
NCBI RefSeq	XP_309653.4	1e-168	51.69%	AGAP003506-PA [Anopheles gambiae str. PEST]
NCBI nr blastp	gi\|347970017	1e-167	51.69%	AGAP003506-PA [Anopheles gambiae str. PEST]
NCBI nr blastx	gi\|347970017	1e-176	51.37%	AGAP003506-PA [Anopheles gambiae str. PEST]

Group
Gene Ontology	GO:0005515	1.7e-16	protein binding
	GO:0016020	2e-06	membrane
	GO:0007275	2e-06	multicellular organismal development
	GO:0004872	2e-06	receptor activity
KEGG pathway	oaa:100075055	4e-08
	K06243 (LAMB2)	maps->	Small cell lung cancer
			Pathways in cancer
			Amoebiasis
			Focal adhesion
			ECM-receptor interaction
InterPro domain	[69-195] IPR000859	8.8e-21	CUB
	[524-754] IPR015915	1.7e-16	Kelch-type beta propeller
	[967-1012] IPR016201	2e-06	Plexin-like fold
Orthology group	MCL10637		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS204081-TA
ATGGTAGAATCATTGCAAATGTTTTTATTTCTTTTCAAATCAAAATACAGACGAAAATATTCGTGGTTCTCGCCGTTCTTGTGTTCAGTGCTCATAGTGTTATTGTTTTGTCATGGTGTACTATCGAAGTGTAGTGATCACAACTGTTTTAACGGTGTATGTAACAATGATACCTGCGTGTGCTACGAGGGCTGGCAGGGCTCCCAGTGCCAACACTGCGGCGGGAAGATTAAATTGACGGAGACGTCTGGTGTTATAACCGATGGTCCCGGTAATTATAGCGTTAGTACACAATGCTCGTGGTTGATCACACCGCCACGCGTGGGGCCCACGTTGCCCACTGTGCGGGTGACACTGGAGAGTTTTGCCACGGAGTGCGGATGGGATCATTTGTATGTATACGATGGTGATAGTGTCCGAGCTGAGAAACTATTGGCTGTGTTTAGCGGGGTTTTAGATAAGAACGAGTCTAACTGGACTCGCCAGGTTATAGCGCGGTCAGGTAGTGTTCTTTTGCATTTCTTCTCTGACGATGCTTACGCCATGGAAGGTTTTAATGTCACCTACGATGCCTACTCCTGCCCATCCAACGACCACAGGACCAACTGTTCCGATCACGGCGAGTGCGAGGAAGGTTCCTGTCGGTGTGACGATGACTGGCTCGGGGTAGCCTGTGACCAGCCTTTGTGTCCCAACGACTGTAACGCTATGTACGGAGCTGGGTCGTGTACGTCGTCTGGCTGCGTGTGCACGCCGTCCAAGACTGGAGCAGATTGCAGCCGGGACGCGTTTATATCCGGCTGGGGGTGGGCGTGGCGGGAGGAGGGGGAGGGGGGTGAACGCCCGCGGAACATGCCGCCGCCGACAGCTGGGCACGTGCTTGTCAACTATGGTGACGATATAATAATGGTGGGAGGGGAAATGTTCCAAGACGCAGCGTTTATGTACAGATATAAACCGAGCCTTAAGGAGTGGAAGGTAGTTGAGGCCCGGGGCAAGGCGCCACAGATGCGGTTCGCCCACACGGCCATAGTCCACGGCGAGGAGATCATAGTGTATGGCGGGGTGGTGGTCACCGACGAGCTGGAGAGGAGCGGGGGTCTCGCGGGGGTGGAGGGGCGGGCGGCGTTCGTCAGCAACGAGATCTGGACGGGTCGGCTGTCGGGGGGCTTCGTCCACTGGACCAACGACACGCCGCGGACGTGCTCTCCTCACCACCCCGCGCCGTTCGACCACTGCGGCGGGCTCCACCTGTCGGGCCACTCGTCAGTCCTGGTTCAAATCGGCCCAACCTCCAAGCCCGTGATGTTGGTGTTCTTCGGCCACTCCCCCCACTACGGCTACCTGCATCTCGTACAGGAAACATTGATATGGGAACTATATCTTGGAGACGCTCAGGCCAGCAGCGGGGGTCTCGCGGGGATGGAGGGGCGGGCGGCGTTCGTCAGCAACGAGATCTGGACGGGTCGGCTGTCGGGGGGCTTCGTCCACTGGACCAACGACACGCCGCGGACGTGCTCTCCTCACCACCCCGCGCCGTTCGACCACTGCGGCGGGCTCCACCTGTCGGGCCACTCGTCAGTCCTGGTCCAAATCGGCCCAACCTCCAAGCCCGTGATGTTGGTGTTCTTCGGCCACTCCCCCCACTACGGCTACCTGCATCTCGTACAGGAGTACTATATAGAGGAGAAGGCGTGGGGCGTCGCCCGGACCCGCGGCTGGCCGGCCAGGGGAGGGTTCGCTCACACCGCTGTATGGGACGCGCTCAGCGGCAGGGTGTACGTACACGCTGGACTCGTCTCCGAGTCGGAGGCGACACAGGCGCCGTCCGCCGCGCTGTACGAGTATGAAGTTGAAGCACGGATATGGCGCCCGCTGCCCTCCGCCCCCACGCCCAGATATCTACACACCGCCATATTTATATCGCCAGGGGTCATGTTGGTGTTCGGGGGGAACGCCCACAACGACAGTGCTGCCGCGGCGCTCACGGCCTCGGGCGCGTCCCAGTGCTACGCGGCCAACGCGCTGCTGTACTACGCCAGGTGTCGCCAGTGGATGTCTGCGGGCGGCCTGCTGGGCTCGCCTCGCGCCGGACACGCGGCCGCTCTGCTTCCGGCCAAGAGACCCACCGTCATCATACATGGCGGCTTCGACGGCCGCCTTCGCTCGGACGCGCTTGTCTTCGAGTCCGGAATGCGCTGTTCGTGGTACAAGGACGAAACGTCCTGTATGAACAGCGCCAGGCACGGCGTCTCGTGTGTGTGGCGCCTTAGAGATATGCTGTGCGTCGGGATAAAGGAAGTAGGGTGGAAGGATTCTTTCACGGATGCTGTAAAAGCCTGCATCGACGAGCCAGTAGTCGTTCACTCAGCCTGTGATCTCTGCTCCCCAGATGAGTCTCGCTGTGCCGTGTCTTCGTGTGAAGCTTGTACAGCGCTTGGTTGTGCTTGGTGCGGCTCGTGTCTCCCGTCCGCGTATCACTGTCGACGATCCCGGACGGCACACGGACCGGTGACCCTGTCCGTGTCGGAGTGTCCGCCGAGCGGCGCGTCGTGTTCGCGCTACCACTCGTGCGCCGCGTGTCACGCGCATCTACACAGACACCCTCATGGCTCGGAAGACTTAAACCAACGGGCGTGTTACTGGGACTATGACACGGTGAAGTGCCGGCCGGCCAATGCGACCACGGATATAAGGGGCTCGCCGAGTGTGTCGGGGTCGTGCAGCGCCGCGTGCTCGTCCTATACCACATGCGGGAACTGCACCGCTGAAGAGTGCATCTGGTGCGCCTCCGCCGGGAGGTGCGTGGATAAGAACGCTTACGGAGCTTCGTTTCCGCTGGGCGGGTGTCGCGCGTGGTCCACCAGCGGCTGTGGAGGTGTGGGGGTGACGGGGGGTGTCCCGGGGGGCGGCTGCTCGTCGCACGTGTCGTGTCGCTCGTGTCTGTCGGAGCCCGCGTGCGGCTGGTGTGATGACGGCGCGGGCGGCGGGCGAGGAGCCTGTCTGCCGGGAGGTGACCGTCACCCCCACCATCCCCACATCTGTCCCAGGAGACGATGGCACTTCACGTCGTGTCCGTCGTGTCAGTGTAACGGCCACTCGGTGTGCGACGCGGCGTCCCGTTGTGTCCAGCCGTGCGGGTCCCGGGCCGTGGGCCCCCACTGTGACACTTGCGCCCCCGCGCACTGGGGTACCCCGCTCAACGGGGGGGTCTGCACGCCGTGTGAGTGTAACGCCCAGGCCGTGTCGTGCGCGGCGGACACGGGCCGCTGTTTCTGCAGCACCAAGGGCCTGGCGGGCGACAGGTGCGACAAGTGTGACAACACCAACCACTACCACGCCGACGTCTACAACAAGGGCTGCTACTACGACCTAGCCGTCGACTATCAGTTCACCTTCAACCTGTCCAAGAAGGAGGATCGTCATTTGTCCGCCATTAACTTCCGGAACGCTCCCGTCAAACCGGACGTGGACGCTGACTTCAGTATCACGTGTTCCGCCCACGCCAGGATGAATCTCACCGTCAGGACCAAATCTGATCCTGAGAGGACGTTATTCAGTGACGTCAATTGCACCAATTTTAGATACAAGGTCCGCCAGTTTGCCACTTTTCTCTCAATATCAATTATAATCCTAGTGGTCCGTGTCGGCCTGTATATTACAGTTCACACAGCCTGTGATCTCTGCTCCCCAGATGAGTCTCGCTGTGCCGTGTCTTCGTGTGAGGCTTGTACAGCGCTTGGTTGTGCTTGGTGCGGCTCGTGTCTCCCGTCCGCGTATCACTGTCGACGATCCCGGACGGCACACGGACCGGTGACCCTGTCCGTGTCGGAGTGTCCGCCGAGCGGCGCGTCGTGTTCGCGCTACCACTCGTGCGCCGCGTGTCACGCGCATCTTCACAGACACCCGCATGGCTCGGAAGACTTAAACCAACGGGCGTGTTACTGGGACTATGACACGGTGAAGTGCCGGCCGGCCAACGCGACCACGGATATAAGGGGCTCGCCGAGCGTGTCAGGGTCGTGCAGCGCCGCGTGCTCGTCCTATACTACATGCGGGAACTGCACCGCTGAAGAGTGCATCTGGTGCGCCTCCGCCGGGAGGTGCGTGGATAAGAACGCTTACGGAGCTTCGTTTCCGCTGGGCGGGTGTCGCGCGTGGTCCACCAGCGGCTGTGGAGGTGTGGGGGTGACGGGGGGTGTCCCGGGGGGCGGCTGCTCGTCGCACGTGTCGTGTCGCTCGTGTCTGTCGGAGCCCGCGTGCGGCTGGTGTGATGACGGCGCGGGCGGCGGCGAGGAGCCTGTCTGCCGGGAGGTGACCGTCACCCCCACCATCCCCACATCTGTCCCAGGAGACGTAACCTCCAACCTCCGCGTGTGTGATGTCTGTCCTCTCCCCGCTAGATGGCACTTCACGTCGTGTCCGTCGTGTCAGTGTAACGGCCACTCGGTGTGCGACGCGGCGTCCCGTTGTGTCCAGCCGTGCGGGTCCCGGGCCGTGGGCCCCCACTGTGACACTTGCGCCCCCGCGCACTGGGGTACCCCGCTCAACGGAGGGGTCTGCACGCCGTGTGAGTGTAACGCCCAGGCCGTGTCGTGCGCGGCGGACACGGGCCGCTGTTTCTGCAGCACCAAGGGCCTGGCGGGGGACAGGTGCGACAAGTGTGACAACACCAACCACTACCACGCCGACGTCTACAACAAGGGCTGCTACTACGACCTAGCCGTCGACTATCAGTTCACCTTCAACCTGTCCAAGAAGGAGGATCGTCATTTGTCCGCCATTAACTTCCGGAACGCTCCCGTCAAACCGGACGTGGACGCTGACTTCAGTATCACATGTTCCGCCCACGCCAGGATGAATCTCACCGTCAGGACCAAATCTGATCCTGAGAGGACGTTATTCAGTGACGTCAATTGCACCAATTTTAGATACAAGTTCGCCAAGTCCGAGCACGCCTTCGGTGTGGAGGACAACGTGACGCTGACGACGTTTTTCGTGTACGTGTACGACTTCCGGCCGCCGCTCTGGATACAGATCTCCTTCTCTCAGTACCCGAAACTCAACTTGCAGCAGTTCTTCATCACGTTCTCGTCGTGCTTCTTGATGCTGCTGTTGGTCGCTGCGGCACTGTGGAAGATGAAACAGAAGTACGACCTGTACCGCCGCCGCCAGCGCCTGTTCGTTGAGATGGAACAAATGGCGTCCCGGCCCTTTAGCACAGTGAGCATAGAGCTGGAGCGGGGAGGGGGCGAGGGCGGAGTCCCGGCCCCTGTGGCGTTGGAGCCGTGCCGCTGGGGTCGGGCGGCCGTGCTGTCCCTGGTGGTGCGCCTGCCGCAGGGCGGGGCGGGTCGAGCGCCCCCTCAGGGCGGCCTCGCCCTCGCCTCGGCCCTCGTCACCCTCGGCCACGCTCACCACCACGACAGGTGA

Protein sequence:

>DPOGS204081-PA
MVESLQMFLFLFKSKYRRKYSWFSPFLCSVLIVLLFCHGVLSKCSDHNCFNGVCNNDTCVCYEGWQGSQCQHCGGKIKLTETSGVITDGPGNYSVSTQCSWLITPPRVGPTLPTVRVTLESFATECGWDHLYVYDGDSVRAEKLLAVFSGVLDKNESNWTRQVIARSGSVLLHFFSDDAYAMEGFNVTYDAYSCPSNDHRTNCSDHGECEEGSCRCDDDWLGVACDQPLCPNDCNAMYGAGSCTSSGCVCTPSKTGADCSRDAFISGWGWAWREEGEGGERPRNMPPPTAGHVLVNYGDDIIMVGGEMFQDAAFMYRYKPSLKEWKVVEARGKAPQMRFAHTAIVHGEEIIVYGGVVVTDELERSGGLAGVEGRAAFVSNEIWTGRLSGGFVHWTNDTPRTCSPHHPAPFDHCGGLHLSGHSSVLVQIGPTSKPVMLVFFGHSPHYGYLHLVQETLIWELYLGDAQASSGGLAGMEGRAAFVSNEIWTGRLSGGFVHWTNDTPRTCSPHHPAPFDHCGGLHLSGHSSVLVQIGPTSKPVMLVFFGHSPHYGYLHLVQEYYIEEKAWGVARTRGWPARGGFAHTAVWDALSGRVYVHAGLVSESEATQAPSAALYEYEVEARIWRPLPSAPTPRYLHTAIFISPGVMLVFGGNAHNDSAAAALTASGASQCYAANALLYYARCRQWMSAGGLLGSPRAGHAAALLPAKRPTVIIHGGFDGRLRSDALVFESGMRCSWYKDETSCMNSARHGVSCVWRLRDMLCVGIKEVGWKDSFTDAVKACIDEPVVVHSACDLCSPDESRCAVSSCEACTALGCAWCGSCLPSAYHCRRSRTAHGPVTLSVSECPPSGASCSRYHSCAACHAHLHRHPHGSEDLNQRACYWDYDTVKCRPANATTDIRGSPSVSGSCSAACSSYTTCGNCTAEECIWCASAGRCVDKNAYGASFPLGGCRAWSTSGCGGVGVTGGVPGGGCSSHVSCRSCLSEPACGWCDDGAGGGRGACLPGGDRHPHHPHICPRRRWHFTSCPSCQCNGHSVCDAASRCVQPCGSRAVGPHCDTCAPAHWGTPLNGGVCTPCECNAQAVSCAADTGRCFCSTKGLAGDRCDKCDNTNHYHADVYNKGCYYDLAVDYQFTFNLSKKEDRHLSAINFRNAPVKPDVDADFSITCSAHARMNLTVRTKSDPERTLFSDVNCTNFRYKVRQFATFLSISIIILVVRVGLYITVHTACDLCSPDESRCAVSSCEACTALGCAWCGSCLPSAYHCRRSRTAHGPVTLSVSECPPSGASCSRYHSCAACHAHLHRHPHGSEDLNQRACYWDYDTVKCRPANATTDIRGSPSVSGSCSAACSSYTTCGNCTAEECIWCASAGRCVDKNAYGASFPLGGCRAWSTSGCGGVGVTGGVPGGGCSSHVSCRSCLSEPACGWCDDGAGGGEEPVCREVTVTPTIPTSVPGDVTSNLRVCDVCPLPARWHFTSCPSCQCNGHSVCDAASRCVQPCGSRAVGPHCDTCAPAHWGTPLNGGVCTPCECNAQAVSCAADTGRCFCSTKGLAGDRCDKCDNTNHYHADVYNKGCYYDLAVDYQFTFNLSKKEDRHLSAINFRNAPVKPDVDADFSITCSAHARMNLTVRTKSDPERTLFSDVNCTNFRYKFAKSEHAFGVEDNVTLTTFFVYVYDFRPPLWIQISFSQYPKLNLQQFFITFSSCFLMLLLVAAALWKMKQKYDLYRRRQRLFVEMEQMASRPFSTVSIELERGGGEGGVPAPVALEPCRWGRAAVLSLVVRLPQGGAGRAPPQGGLALASALVTLGHAHHHDR-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: