MonarchBase - Protein-coding gene

DPOGS210481
Transcript	DPOGS210481-TA	3459 bp
Protein	DPOGS210481-PA	1152 aa
Genomic position	DPSCF300062 + 531982-542316
RNAseq coverage	445x (Rank: top 28%)

Annotation
*Heliconius*	HMEL009724	81.61%
*Bombyx*	BGIBMGA001836-TA	74.42%
*Drosophila*	Tsp-PF	51.21%
EBI UniRef50	UniRef50_E0VQ35	57.85%	Thrombospondin-3, putative n=5 Tax=Coelomata RepID=E0VQ35_PEDHC
NCBI RefSeq	XP_308033.4	58.98%	AGAP002157-PA [Anopheles gambiae str. PEST]
NCBI nr blastp	gi\|347967276	58.98%	AGAP002157-PA [Anopheles gambiae str. PEST]
NCBI nr blastx	gi\|328706983	58.81%	PREDICTED: thrombospondin-3-like [Acyrthosiphon pisum]

Group
Gene Ontology	GO:0007155	5.6e-103	cell adhesion
	GO:0005509	5.6e-103	calcium ion binding
	GO:0005576	5.6e-103	extracellular region
KEGG pathway	cqu:CpipJ_CPIJ011343	0.0
	K04659 (THBS)	maps->	Malaria
			TGF-beta signaling pathway
			Focal adhesion
			Phagosome
			ECM-receptor interaction
InterPro domain	[911-1126] IPR008985	2e-110	Concanavalin A-like lectin/glucanase
	[914-1126] IPR013320	6.7e-107	Concanavalin A-like lectin/glucanase, subgroup
	[928-1128] IPR008859	5.6e-103	Thrombospondin, C-terminal
	[514-547] IPR013091	6.3e-08	EGF calcium-binding
	[514-565] IPR001881	2e-06	EGF-like calcium-binding
Orthology group	MCL10285		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS210481-TA
ATGCTCATGCCTTGCTGTAACAGTGGACTGTTAAGACACAGATGCTTGAAGACTGAGCGCGCTACTAAAATACTTTCTACAACAATTTCATATAAAGTTGTAAGTTTAGATACTTTCAGAATAATCCCAGTTAAACTTAATAGGTTAGAAGCAACAAATGACGTCATAGCCGCCGCTTCAGCCACCGAAGATGGTGAAGTAGCTATTATAGTCCGAGGTCCGTACGGGGATAACTTAGTCCGTGAGGAATTGCTTCACGCGAAGAGCACAGACGATAACTCCGTCTCACTTTATTACAATAGTAAAAGTAAAAAGGTGTCATTGGAAAGTCTGAACGGGAATCACATCAAGTCAGTTTCCTGGAGTTTGGGTTCTCATTTTCATGGCACATTGATTCTTATCGTGACCCACTCCAGAATAAAGTTGGCGGTGGGATGCAAGCCGCTTCATTGGCATCCAATGTCCGGTAGGCATGACGTGCTAACACTTCTAGCGAACGAAAAGTTAAAATTGTACCACGAAGAGAATGCTCCGGTGGAGGTGTATGACAGCGAAAAGACAGCGTTAGACGCCTTGAACTGCAACCACAGGGACCTTAAACCTCCGACCTTATTGACAGTGGACTCTGATGTGGAGGAAGTCAAAGATTTTATAAAACGCGAAGAGAGAATGAAGATGGAAGATGAGATGCAAGGGGACGATCCGCGTAATAACTATATAGATCCTAACATTTACGCCCCACTGCCTCTGCCACCAACGACACCTGGCTCACAAAGAGGAGACATTCCTGCGACGGATATAGAATCTTGTGATGATGAAGTGATCCGTCAACTGAAACTTCTCCGTCAGACGATTGAACTTCTGCGTCGTGAGCTTGCAGACCAAAAAGGAACTATAGACGGACTCAGAAACCAACTCCGAGCTTGTTGCAACCGAGTCTCGCCACCTCCCATAGATAGATGTTCCGGATCTTCGTGCTATCCTGGCGTGCAGTGTCGCAACACGGCGACAGGCATCCAGTGCGGACCCTGTCCATCAGGGATGGAAGGTGATGGAAGAACATGCAGACCTATAACTTGCAATCGACGCCCATGCTCTAAAAACGAATATTGCATCGACACGGAACAAGGGTTTAGATGCGAGCGGTGTCCAGGAAGACAGACCAGCGACGGACAAACATGTCAATCAGCTTGTAGCTCCAATCCTTGCTTTGGAGGAAGAGTTCAATGTCAAGATTTACCGGATGGTAGGTATCGTTGTGGGTCTTGCCCCGCCGGTTATACAGGGAATGGGGAGCAGTGTGTTAGACTGTCTTGCCGTTCCAACACTTGCTTCCAAGGAGTTGAATGCCAGGAGACGGCGTCAGGTCCACGGTGTGGACCGTGTCCCCGGGGATACGACGGTGATGGTGTTCGTTGTGCACACGTTTGCTCGCGTCGACCCTGCGGGGAGAGACGCTGCAGCCCCTCGAACAGCAGTCCCTACTACATCTGCGAAGGTTGCCCCAAGGGCTACGAATGGAACGGTTACACATGCGTTGATATGGACGAGTGTGATTTAATACGTCCGTGTGACGAACTGGTGTCGTGTCGTAATACGGAGGGAGGGTTCGAGTGTGGCGCATGTCCGACAGGGTACAGGGGCAGTTCGGGATGGAGCGGTGCTGGCCAGGAGAGACGGAAGGAGGGATGCGTTGATGTAGACGAGTGTGACCAAGACGTCTGTCCTCGGGGACGGCTGTGTGTCAACACACCTGGTTCGTTCACGTGCGTTCCCTGCGGCGGCCACTACTACGTGAACACGTCTCGGCCGTGCATAGAGGCGGACTCCTTGCGGCGCTGCGACCCAGCCTTCTGCCGCTCTCATAACGCCGTGTGTGGCTTCGGACAGGGCTGTGTGTGTGCGACGGGCTGGGCCGGTAATGGTACTGTTTGCGGTACGGACAGTGATCTAGACGGATATCCGGATCAACAGTTGCCTTGTACTGAATTGCAATGCACAGCTGATAACTGTCCCCATGTGTCCAACTCGGGACAGGAGGACGCAGATAAGGACGGTATCGGAGATTCTTGCGATCCTGATGCTGATGGTGACGGCATACCGAATGTCCCGGACAATTGTCCCTTAACACCTAATCCAGATCAGCTAGATAGGGACGAGGATCGCAGTGACAAACGTGGGGATGCTTGTGACAATTGTCCAAGAAGATTTAACCCTGGACAAGAAGATGCAGATAACGATGGACTCGGAAACGTCTGCGATCCCGACATGGATAATGATGGCATTCCCAACGACCACGACAATTGTCCTCTCGTGTTCAACCCACAACAGGAAGATATGGATGGAGATGGTGTGGGTGATCTGTGCGACAACTGTCCAAGAGTACGGAACCCCTCCCAGGATGACTCCGACAAAGATAACGTTGGTGACGCCTGTGACAGTGACGTGGATAGAGACCAGGACGGCATACAGGACGGTTTGGATAATTGTCCGAATTTAGCGAACAGTGATCAGCAAGATGTTGATAATGATGGCAAGGGAGACGCTTGTGATGATGATATAGACGGTGATGGGATCCCGAACCTCGAAGACAACTGTCCTTTGGTGTACAATCCTGATCAGGCTGACGCTAATGGTGACGGTGTCGGGAACGTTTGCGACAACGACTTCGATGGAGACAACATCACTAACGCACTCGACAATTGCCCGAATAATTCGAGGATTTTTCGCACCGACTTCAGGAAGTATATGACGGTAAGGTTGGACCCAGAAGGTACCTCCCAGCAAGACCCACGCTGGCAGCTCGCACACGAGGGCGCTGAGATCACTCAAACCCTCAACTCAGATCCTGGACTGGCGGTCGGATTCGACAGCTTCGGAGGAGTTGACTTTGAAGGCACCTTATTTGTCGACTCGCACATAGACGATGACTACGTCGGCTTCATATTCGGCTACCAGAACAACAAGCGGTTTTATGTGGTGATGTGGAAGAAGAACAGCCAGACGTATTGGCAGACGACGCCGTTCAGGGCGGTCGCGGAGCCGGGGATACAGCTGAAGTTGGTGCACTCTAGCACTGGACCTGGGAAGATACTGAGGAACGCGCTCTGGAACACGGAGTCTACTCCTGATCAGGTGACACTTCTGTGGAAGGATCCTCGAAACGTCGGCTGGCGAGAGAAGACCGCGTACCGCTGGCGTCTCATACACAGACCCAAGATAGGACTGATTAGACTGAAGATATATGAGAACAACAGTCTCGTGGCTGACTCCGGGAACGTTTACGACTTCACGCTTAAGGGTGGAAGGCTGGGAGTTTTCTGCTTTTCCCAGGAAATGATCATTTGGTCCAACCTTGTGTACCGCTGTAACGATAAAATACCAACGAACATAGTATCAGAACTGCCACCAAGGCTCCTTAAAAAGTTGGATATAGACCACGACTTCGTTTATTTGTAG

Protein sequence:

>DPOGS210481-PA
MLMPCCNSGLLRHRCLKTERATKILSTTISYKVVSLDTFRIIPVKLNRLEATNDVIAAASATEDGEVAIIVRGPYGDNLVREELLHAKSTDDNSVSLYYNSKSKKVSLESLNGNHIKSVSWSLGSHFHGTLILIVTHSRIKLAVGCKPLHWHPMSGRHDVLTLLANEKLKLYHEENAPVEVYDSEKTALDALNCNHRDLKPPTLLTVDSDVEEVKDFIKREERMKMEDEMQGDDPRNNYIDPNIYAPLPLPPTTPGSQRGDIPATDIESCDDEVIRQLKLLRQTIELLRRELADQKGTIDGLRNQLRACCNRVSPPPIDRCSGSSCYPGVQCRNTATGIQCGPCPSGMEGDGRTCRPITCNRRPCSKNEYCIDTEQGFRCERCPGRQTSDGQTCQSACSSNPCFGGRVQCQDLPDGRYRCGSCPAGYTGNGEQCVRLSCRSNTCFQGVECQETASGPRCGPCPRGYDGDGVRCAHVCSRRPCGERRCSPSNSSPYYICEGCPKGYEWNGYTCVDMDECDLIRPCDELVSCRNTEGGFECGACPTGYRGSSGWSGAGQERRKEGCVDVDECDQDVCPRGRLCVNTPGSFTCVPCGGHYYVNTSRPCIEADSLRRCDPAFCRSHNAVCGFGQGCVCATGWAGNGTVCGTDSDLDGYPDQQLPCTELQCTADNCPHVSNSGQEDADKDGIGDSCDPDADGDGIPNVPDNCPLTPNPDQLDRDEDRSDKRGDACDNCPRRFNPGQEDADNDGLGNVCDPDMDNDGIPNDHDNCPLVFNPQQEDMDGDGVGDLCDNCPRVRNPSQDDSDKDNVGDACDSDVDRDQDGIQDGLDNCPNLANSDQQDVDNDGKGDACDDDIDGDGIPNLEDNCPLVYNPDQADANGDGVGNVCDNDFDGDNITNALDNCPNNSRIFRTDFRKYMTVRLDPEGTSQQDPRWQLAHEGAEITQTLNSDPGLAVGFDSFGGVDFEGTLFVDSHIDDDYVGFIFGYQNNKRFYVVMWKKNSQTYWQTTPFRAVAEPGIQLKLVHSSTGPGKILRNALWNTESTPDQVTLLWKDPRNVGWREKTAYRWRLIHRPKIGLIRLKIYENNSLVADSGNVYDFTLKGGRLGVFCFSQEMIIWSNLVYRCNDKIPTNIVSELPPRLLKKLDIDHDFVYL-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: