MonarchBase - Protein-coding gene

DPOGS211470
Transcript	DPOGS211470-TA	1806 bp
Protein	DPOGS211470-PA	601 aa
Genomic position	DPSCF300113 - 298524-406644
RNAseq coverage	152x (Rank: top 53%)

Annotation
*Heliconius*	HMEL015072	6e-82	63.38%
*Bombyx*	BGIBMGA002740-TA	8e-41	72.27%
*Drosophila*	CG42342-PH	2e-42	50.60%
EBI UniRef50	UniRef50_E0VQF7	4e-52	41.92%	Collagen alpha-1, putative n=20 Tax=Coelomata RepID=E0VQF7_PEDHC
NCBI RefSeq	XP_970497.2	8e-58	43.72%	PREDICTED: similar to LP07855p [Tribolium castaneum]
NCBI nr blastp	gi\|189241587	2e-56	43.72%	PREDICTED: similar to LP07855p [Tribolium castaneum]
NCBI nr blastx	gi\|189241587	5e-156	49.68%	PREDICTED: similar to LP07855p [Tribolium castaneum]

Group
KEGG pathway	tgu:100224679	9e-24
	K06237 (COL4A)	maps->	Small cell lung cancer
			Pathways in cancer
			Amoebiasis
			Focal adhesion
			ECM-receptor interaction
InterPro domain	[117-164] IPR008160	5.4e-10	Collagen triple helix repeat
Orthology group	MCL22679		Lepidoptera specific

Nucleotide sequence:

>DPOGS211470-TA
ATGGGGGGGAAGCCTCCGGGCAAGAGTCCTCCGGAGAAGGAAAAGGAAAAAGAGACTAAGAAAAAATGGGAGAAATGCGAGCGCTGCCCAGCGGACCCTTGGACTTACTGTGTCGTGTTATGGTGTGCGTGTGCGATGAGCCTCATATCTAGTGGGTACAGTCTATACAAGCAGCAGGGTCTACAGGGGAGGCTGTCCTTGTTGGAGGAGCAGCATCTAGCTTTACGTAGTGCGGTCCTGGAGCCGCAGCAGCCTCTAGTGGAGCGTCTGAGGAGGGATCTTCACACGAGACCGTTGAGCTCCTGGAGAGCCAGGAGGAGTATTAGAGACTACGGCACCTGCGTTTGTCCACCAGGTCCTCCCGGGCCCCCCGGCAAGCGTGGCAAGAAGGGCAAGAAAGGTGACCCCGGTGACCCAGGCCCCCCGGGGTTGATGGGAGCTCCGGGGAAAAATGGATTCCCGGGTAGCAAGGGCGATAGAGGCGAGCGCGGCTTCATGGTAAGCGCCGCGCTGGCGATCCCCGTAGTGTCGCTAGAACCCTTGCGCCTCATTAACCTTACATCAACCATTTACAAATTGCCTAACCATGTCCCGCGTCCTAACTCTAGATATATCTGTAGTTTGACTTACAAACATATGATTAAGGGCCCTATAGGACTGGACGGACCTAAAGGAGATCCGGGTCGGCCGGGGGACAAGGGACAAAAAGGAGAACATGGCAGTCCAGGCTTTGATGTTTTCTCTGCAGTGAAGGGAGTCAAAAGATCAGTGGACAACTATAAGATGAGCCCCTACACGACCGCAGAGATCATAGCCGTTAAGGCCCTGCAGGCGACGGGGCACAACATCTCAGCGCAGTCCGTCATACAGTTGAAGGGGGAACCTGGAGAGCCGGGACCTCCGGGACCACCCGGACCAACAGGAGCAGAAGGTGTTGCTGGAGCAGAAGGACGCGTGGGTCCTGCGGGGACGCCCGGTCCTCCTGGACCAATAGGCCCTACGGGGCCTGCAGGATCTGCTGGACCGATAGGGCCCCCAGGACCAGTAGGACATAAGGGAGACAAGGGAGACAAGGGTGAACGTGGTTTCACGACGACACTGAAAGGCGATGCGTTCCCAACTGGCATCATCGAGGGTCCACCAGGTCCCCCCGGGCCTCCCGGGGCGGAAGGTGCGCGCGGCGAGCGCGGAGCGGGGGGTGCTCCCGGCCCCCCCGGGGAGCGCGGCGCGAGAGGCAAGCGGGGCAAGCGGGTAACACCACCCACTTCTGAATACGACCGCTATTGTGCGGTAGGCAAGGAAGGTGCGTCAGGACCTCGCGGACCGCCTGGTTCGGACGGCCGACCCGGGGTCGCCGGGGTTCCAGGCCCGCCGGGAAAACCGGGAGAAATTGGACCAAAGGGTGAAAAGGGCGACTACGGTGACATGGGGTCCCCGGGCATGCTCGGAGCTCCGGGACTTCCTGGACCCCCGGGATACCCAGGCCTTAAGGGGGAGAAAGGAGACAAGGGGGACTCGGGAGACGGGACCGGGTACGAGCTTTATGGACACGAACTGATGATGGGCCCCCCGGGCTCGCCGGGCCCCGCGGGTCCCCCGGGCGTGGCGGGCCCGCCCGGTATCAAGGGCGACAAGGGCGAGCCCGGAACACGCGGCAAGACTGGTGAGCGCGGAGAGAAAGGTGACCCAGGACCCATGGGACTCCCGGGCCCAGTAGGTCTCCCGGGGGAGGCGGGCGAGCCGGGCCGGCCGGGCGATACGGGGCCGAGGGAGAACCGCTGGCCTCCGGACTTCGCCTTCACGTAG

Protein sequence:

>DPOGS211470-PA
MGGKPPGKSPPEKEKEKETKKKWEKCERCPADPWTYCVVLWCACAMSLISSGYSLYKQQGLQGRLSLLEEQHLALRSAVLEPQQPLVERLRRDLHTRPLSSWRARRSIRDYGTCVCPPGPPGPPGKRGKKGKKGDPGDPGPPGLMGAPGKNGFPGSKGDRGERGFMVSAALAIPVVSLEPLRLINLTSTIYKLPNHVPRPNSRYICSLTYKHMIKGPIGLDGPKGDPGRPGDKGQKGEHGSPGFDVFSAVKGVKRSVDNYKMSPYTTAEIIAVKALQATGHNISAQSVIQLKGEPGEPGPPGPPGPTGAEGVAGAEGRVGPAGTPGPPGPIGPTGPAGSAGPIGPPGPVGHKGDKGDKGERGFTTTLKGDAFPTGIIEGPPGPPGPPGAEGARGERGAGGAPGPPGERGARGKRGKRVTPPTSEYDRYCAVGKEGASGPRGPPGSDGRPGVAGVPGPPGKPGEIGPKGEKGDYGDMGSPGMLGAPGLPGPPGYPGLKGEKGDKGDSGDGTGYELYGHELMMGPPGSPGPAGPPGVAGPPGIKGDKGEPGTRGKTGERGEKGDPGPMGLPGPVGLPGEAGEPGRPGDTGPRENRWPPDFAFT-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: