MonarchBase - Protein-coding gene

DPOGS207308
Transcript	DPOGS207308-TA	2820 bp
Protein	DPOGS207308-PA	939 aa
Genomic position	DPSCF300008 + 1316218-1333044
RNAseq coverage	265x (Rank: top 40%)

Annotation
*Heliconius*	HMEL016296	1e-56	38.13%
*Bombyx*	BGIBMGA012091-TA	7e-58	42.96%
*Drosophila*	vkg-PA	7e-31	32.83%
EBI UniRef50	UniRef50_F4X517	7e-67	36.81%	Collagen alpha-1(XV) chain n=5 Tax=Acromyrmex echinatior RepID=F4X517_ACREC
NCBI RefSeq	NP_001163364.1	2e-62	31.89%	multiplexin, isoform M [Drosophila melanogaster]
NCBI nr blastp	gi\|307174439	1e-69	34.91%	Collagen alpha-1(XV) chain [Camponotus floridanus]
NCBI nr blastx	gi\|189235667	2e-120	38.56%	PREDICTED: similar to collagen alpha 1(xviii) chain [Tribolium castaneum]

Group
Gene Ontology	GO:0031012	1.5e-47	extracellular matrix
	GO:0007155	1.5e-47	cell adhesion
	GO:0005198	1.5e-47	structural molecule activity
	GO:0005488	1.4e-42	binding
KEGG pathway
InterPro domain	[754-938] IPR010515	1.5e-47	Collagenase NC10/endostatin
	[782-938] IPR016186	1.4e-42	C-type lectin-like
	[773-936] IPR016187	1.9e-37	C-type lectin fold
	[19-218] IPR008985	4e-10	Concanavalin A-like lectin/glucanase
	[466-522] IPR008160	1.3e-08	Collagen triple helix repeat
Orthology group	MCL25921		Lepidoptera specific

Nucleotide sequence:

>DPOGS207308-TA
ATGGTCCTCTTTTTCAGATGGTTTGGCGCCTTTAGCCCCATGGTGATAGCTGAACCAGACAACTACGATATCCTGAGTCTAGTCCGTGCGAATGTTTTGACCGATTTTATAGATATAGTCAAAGGCACAGATGTGTATGGCGCCATTAAACTTGTAAAAAACGAATTAATTACTATTAAACTGGATCAATTCCCAGATCCAATAAACCATCTAGCAACTCCTTTTGAAATATATGCCTTAGTGAAGTTGAACGTGGATGTGACGTCATGTTTGTTTCAAATCATATCGAATAAAGAAAACAAACTCAGTCTATGTTTTACACCTGAAGGAGAAGATTTAATTAGAATTACATTAAATGGTAGCGATCTACCAGAAAATGGAATATCTTTCCATTACTTGATAGAAGATTATAATGCATTTGTAAATATAATCTTAGCTGTGAATGATAAAAATGTGGAATTTTACTCTAACTGTGAAAAAATTGAAACCCAATATTTCGATTCCGACTACACCATCGAAAACATAAATCTCGAAAAAGATTCTATACTACATTTTGGCAAATTGACCGAAGAAAGTAATTTATTTGAGGCTGCGATACAGACACTTGTGATATATCCAAAGCCTGATATTAATGGACGAAGATATATATGTTCCGATGATAAATTGCCGGCTAGCATTAAAGCTAACCCGAGCACCGAAAGTAATGATTTCACAAAGGCAGAAAACCTCGAAGTGAATACGTTTATTGATTTTGATTCAAGCGAAAAAATATCAACCAACTCCCTGTTTGATAGCACTGAAGAAACTGTTGTTAAAGGAGAAAAAGGTGATAAGGGGGACAAGGGCGAGAAAGGCGATCGAGGAGACAAGGGTGAACGAGGTGAATCTGTCATGGGTGAACGTGGTCCAATTGGTCCTGATGGAGCTCCTGGAACACCGGGTGTGATGGGAAAAGAAGGCTCCTGCAAATGTTCAGAAGCTATTGTGTCAGACTTACTACTAAAAATGCCAGAAATGAGAGGACCTCCAGGTGACTACGGGCTGAAAGGCGATAGAGGTGAAAAGGGGGTGAAAGGAGATAGCGGATTACCAGGAAAAGATGGTAGAGATGGTAATGAGGGCGATCCCGGTATACAAGGTCCTCCTGGAACACCAGGTCTTGTTCGTAAGGAAATAGTAGAGACAAAAGTGCCAGTTGTTGGAGAAAAAGGAGAAAGAGGGCCCGTTGGACCACCTGGTACTCCTGGTAGAGACGGCTTAAGAGGAGAAAAAGGAGACAAAGGTGAACCGGGTCTCATGGGACTACCTGCAAAACTATCATCGATATTAGACGAGGACATCGATCCTAATGAAGAAAAGGCTATCGTCGAAAAATTCAGAGGATATAAAGGGGCAAGTGGTCCTGAAGGACCGAAGGGTGAAAAAGGGGATACAGGAGCAATTGGTCCTCAAGGTGAAACTGGCAGAGATGGTATTCAGGGTCCCCCAGGAAAACATGGACATAAAGGAGAAACTGGCAAAGATGGATCAAAGGGTGACAAAGGAGAACCAGGAATACCCGGTCCTCCTGGTACTGTGCCATCATCTCAAATAAGTCTCATGAAAGGACCGAAAGGTGACCGTGGTCCACCAGGTCAGACAGGTCCTCGAGGACCAACGGGACATCATGGAAAAGTGGGCCCCATAGGACCACCGGGTAAAAGCCACAAGGGAGAGCCTGGGAAACCAGGTCCTATGGGACCCAAAGGAGAAAAGGGTGCTACTGGACCTAGAGGAGAAAAAGGTGAAGGGTTGTCGCCCAGTGATATCGAGAGGTTAAAAGGACATAAAGGTGACAGAGGTGAAATTGGTTTACCTGGTGAAGCTGGAAAGCCTGGGTTGCCGGGGACTTGTGGCGAATGTGTTCGCGTATCAATCCCGGGCCCATCTGGACCACCGGGACCTCCGGGTCCATCAGGTCCTCCTGGAGTCTCTATCATCGGTCCTAAAGGAGAACCTGGTGGATTAGTAACTAAGAAATCATTTTTTGCATTCAATGACATTCATCATGAGAGCACAGATGAAGACGATGATTTTTATACAGCAGCGACTGTCATTTTCAAAACAACTACCGGTCTTCTTAAGAGAACTACTGACACCCCTCTGGGGACGCTGGCATATATATTACAAGAGAAAATATTATTAATGCGGGTTGAAAATGGATGGCAATACGTTGTGATGGGTTCTTTTTTGCAAACAAGGGAATCACATACCAGCACAACATTCAGACCAACGTACTATTCATCAACTCCATCAAGTCCACCCTCTTCAGATGAAACGACAGAGAATAATGAAGATAATTACATACGTTTGGTCGCCTTAAACCAAGCATATGCAGGAAATATACTTATGGCAAACAATAGAACTGGGCGTAATGCTGCTGACCAGGAATGTTACCGACAAGCTTATATACATAATTTTAAAAGCACTTTTGCAGCCTTCCTAGCTACTAGGGTTGAAGATCTAAGATTTATTGTAAAAAGAAAACGAGACAGATATGTTCCGGTAGTCAACTTGTACGGACAAGTTCTTTTCGATTCCTGGGCGAGCATGTTTAATGGTTCAGGAGCACTGTTTGCAAAATCAAGTATTTACAGCTTTAATGGAAAAAATGTTCAGATTGATACTACTTGGCCTTTAAAAGCTGTATGGCATGGCAGCAACTCTTTTGGCACAGTTTTATCAAGAGCAAATTGCAATGAATGGACGAGTGACAGTCCGCTGAACGTTGGCGCGGCCTCCCTACTATATACCCATAGACTATTAGAGGAAGAACAGTAA

Protein sequence:

>DPOGS207308-PA
MVLFFRWFGAFSPMVIAEPDNYDILSLVRANVLTDFIDIVKGTDVYGAIKLVKNELITIKLDQFPDPINHLATPFEIYALVKLNVDVTSCLFQIISNKENKLSLCFTPEGEDLIRITLNGSDLPENGISFHYLIEDYNAFVNIILAVNDKNVEFYSNCEKIETQYFDSDYTIENINLEKDSILHFGKLTEESNLFEAAIQTLVIYPKPDINGRRYICSDDKLPASIKANPSTESNDFTKAENLEVNTFIDFDSSEKISTNSLFDSTEETVVKGEKGDKGDKGEKGDRGDKGERGESVMGERGPIGPDGAPGTPGVMGKEGSCKCSEAIVSDLLLKMPEMRGPPGDYGLKGDRGEKGVKGDSGLPGKDGRDGNEGDPGIQGPPGTPGLVRKEIVETKVPVVGEKGERGPVGPPGTPGRDGLRGEKGDKGEPGLMGLPAKLSSILDEDIDPNEEKAIVEKFRGYKGASGPEGPKGEKGDTGAIGPQGETGRDGIQGPPGKHGHKGETGKDGSKGDKGEPGIPGPPGTVPSSQISLMKGPKGDRGPPGQTGPRGPTGHHGKVGPIGPPGKSHKGEPGKPGPMGPKGEKGATGPRGEKGEGLSPSDIERLKGHKGDRGEIGLPGEAGKPGLPGTCGECVRVSIPGPSGPPGPPGPSGPPGVSIIGPKGEPGGLVTKKSFFAFNDIHHESTDEDDDFYTAATVIFKTTTGLLKRTTDTPLGTLAYILQEKILLMRVENGWQYVVMGSFLQTRESHTSTTFRPTYYSSTPSSPPSSDETTENNEDNYIRLVALNQAYAGNILMANNRTGRNAADQECYRQAYIHNFKSTFAAFLATRVEDLRFIVKRKRDRYVPVVNLYGQVLFDSWASMFNGSGALFAKSSIYSFNGKNVQIDTTWPLKAVWHGSNSFGTVLSRANCNEWTSDSPLNVGAASLLYTHRLLEEEQ-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: