MonarchBase - Protein-coding gene

DPOGS206549
Transcript	DPOGS206549-TA	5289 bp
Protein	DPOGS206549-PA	1762 aa
Genomic position	DPSCF300190 + 217412-225660
RNAseq coverage	2800x (Rank: top 4%)

Annotation
*Heliconius*	HMEL002288	68.73%
*Bombyx*	BGIBMGA014040-TA	61.19%
*Drosophila*	vkg-PA	46.56%
EBI UniRef50	UniRef50_B0WDA5	45.23%	Collagen alpha-2(IV) chain n=4 Tax=Culicidae RepID=B0WDA5_CULQU
NCBI RefSeq	XP_001951336.1	48.03%	PREDICTED: similar to collagen alpha-2(IV) chain, partial [Acyrthosiphon pisum]
NCBI nr blastp	gi\|350418539	49.54%	PREDICTED: collagen alpha-2(IV) chain-like [Bombus impatiens]
NCBI nr blastx	gi\|383858152	50.37%	PREDICTED: collagen alpha-2(IV) chain-like [Megachile rotundata]

Group
Gene Ontology	GO:0005201	2.6e-107	extracellular matrix structural constituent
	GO:0005581	2.6e-107	collagen
	GO:0005488	3.3e-47	binding
KEGG pathway	dpo:Dpse_GA17987	0.0
	K06237 (COL4A)	maps->	Small cell lung cancer
			Pathways in cancer
			Amoebiasis
			Focal adhesion
			ECM-receptor interaction
InterPro domain	[1494-1718] IPR001442	2.6e-107	Collagen IV, non-collagenous
	[1494-1603] IPR016187	3.3e-47	C-type lectin fold
	[600-658] IPR008160	3.4e-10	Collagen triple helix repeat
Orthology group	MCL10127		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS206549-TA
ATGCAGGTTGTATGCAATCAGACCGTATGTGATTGTGCTGGTCTCAAAGGAGATCGAGGTGACATTGGTTCTCCAGGAATACCCGGACCCCAAGGCGACTATGGAGAGGATGGACCTGATGGACCCATGGGACCCCCTGGTGAACCAGGGGACTGGGGCGAGAAGGGTATCTCGGGTGACAAAGGAGAAAGGGGTGTAGATGGCCCATACGGACCGAGGGGATTCACTGGACCTCAGGGACCCACTGGTTTAGAAGGTGTGAGAGGTATTGCTGGTCTTGATGGATGCAGTGGTATTGATGGTATTATGGGTCCTCCTGGCCCCCAAGGTATACCTGGTGATAGAGGGTTACCAGGTCCCTATGGTGAAAAAGGAACACAAGGGTTAGCAGGAGAGGGTGGTGTTAATTCAAGAGGAGCGAAGGGAGATCAAGGTGATAGTGGACGACCTGGCTTACAAGGACCAAGAGGGCCTATTGGATGGCGAGGTGATAGTGGTATGCCGGGAGAAGTTGGTGATCAGGGACCTATGGGGTACCGAGGAGAACCGGGATATAGAGGAGATCTCGGCGACGACGTTGTGGGGCCTCAAGGTGAAAAGGGAGATCAAGGGGAAGTTGGCGAATCAGGGAGGCCAGCGAAAGTTATCTATATTGATCATCTTCAAGAAAATGTTACGATATTAGCCAAGGGAAACAGGGGTGACAAAGGATTTGCGGGTACACAGGGCGTCAAAGGTGTTAAAGGAGACACTGGCTCTATGGGTCCTCCAGGGCCAAATGGACTTAACGGAGACCAAGGTTACAAAGGCGATCAAGGAATAGACGGCCCTAGAGGTAAACCTGGACATCGTGGACGCAAAGGGCCTCTTGGACCAAAAGGTGATAAAGGCTGGCCAGGATATGCTGGGCTAGATGGAGAAGACGGAGAGCCGGGAGCAAGAGGAGAAGACGGAAGACCTGGAATGCCGGGAGTTCAGGGACCTCAAGGAGAGAAAGGAATATACGACGAACGACTTAATGAACCACTTCTGCCAGGTTCAAACGGTCCACAAGGTCCTGTAGGTTATCCAGGACCTCCAGGACCTCCAGGTGCAGATGGAACCAGAGGTTTGCCTGGAATTCAAGGTCCACCAGGTCTTCCGGGACCGAAAGGAATAGCTGGACGTCAAGGACCGCCAGGAAGTTCAGAAAAAGGAGAACCAGGAAATGACGGTTTTAAGGGTTTACCTGGACCTCGAGGTCCTATGGGCTACCCAGGTCCACAGGGAGTATTAGGACCAAAAGGTTTTAAAGGCTCAGCTGTAAGAGGCCCCGAGGGTGAAGAAGGTACACCGGGATTAGATGGCAGACCTGGTATAAGAGGAGACAGAGGGGACTTCGGTTTCATGGGCCTGCCCGGGTATCCAGGTCGAGGTGTTCACGGTGTTGGTCCACCAGGGGAGGATGGTCCTCCAGGACGTCCTGGAGTCGTTGGTGATAGTGGAACACCTGGAAGACCTGGATTTAGAGGTCCAAAAGGAGAACGTGGTGACGACTGTCCATTCTGTCCATCAGGTTTACCAGGTATGAAGGGAAAGAGAGGAGATGAAGGTTTTAAAGGTCAAAAAGGATATCCTGGCCCTGAAGGAGATCGTGGCCAGCGTGGGTTAAAAGGAGAAAGTGGATCACCAGGTTTACCTGGATCAAAAGGTCCGAAGGGCATTACTGGTCCGCCCGGAATGACTGGCCGTCCTGGTCTACAAGGAGAGAAGGGACGACTTATACAGCCTCCTCTTTCCTTAATAATAGCTGAACGTGGACCTCGTGGTTTTATTGGGGATCCTGGTCTTCGTGGAGATCCAGGTTTTCCTGGGCTTCGAGGAGAAAATGGCTGGAAAGGTTCCAAAGGTATGGCTGGTGAGGATGGTTTCCCTGGTCCTGATGGAAGGGATGGATTAAAAGGACGAGACGGCGTACCAGGAATGCCTGGTGAACATGCCGATGTTCCTATACAATTTCTATTTGGACAACGAGGAGATAAAGGGATTAAAGGACAACTCGGAGAACCCGGAGATGATGGTCTAAAGGGTGATGCCGGAGAAGCCCTTGGTTTCGGAATAAATGCTAAAGGAGAAAAAGGGGAACCGGGACCGATGGGTCCAGAAGGTTTGCAAGGAATTAAAGGAGATTCTGGTGATATTGGATACGAAGGACTTCCAGGAGAACGAGGGGATATTGGTCTACCTGGTGTTTCTAAACAAGGAGAAAGAGGTGCTAGAGGTTTTCCCGGAGACAAAGGAGATATAGGTCCCTACGGAGAACCTGGAGGTCCAGGTCTTAGGGGTCCTGTGGGATTTGATGCACTTAAAGGCAAGAAAGGTAGTCGGGGAGAAGTTGGGTACGCAATTATTTACGGAGAAAGAGGTTTCGATGGTATGGCCGGGGATTATGGTGATGTAGGTGAACCTGGTTATGCTGGAAACCCCGGAAGAGCAGGTTTGATGGGACCTAAAGGGGAACCAGGTTTACCTGGTGATGTGGGTCCACCTGGACCCGTAGGACCACCAGGACGAAAAGGAATGTCAGGAAACATTATACAGGGTGCACCTGGTATGCCAGGTCAACCCGGACGACTGGGTTCTATAGGATTAATCGGTGAACCAGGACTACAGGGCTACAATGGCTTGCAAGGGGATGTTGGTCCTAAAGGGATGAAAGGAGAAGCTGGTCGAATGGGAAATCGTGGCTGGACTGGTGAACGTGGTCTTACGGGCAGAAGAGGGCGACCCGGACTTATGGGTCAACCTGGCCTGAGTGGCGAAACGGGAGACCGAGGTGAAACTGGTCTTCGTGGTTATGATGGTTTACCTGGTAAAGAAGGTCCCCTGGGCATAATTGGTCAAAAAGGAATACGTGGTGATATTGGTTTACCGGGAGCAGACGGTTTAGGTGGACCTCCAGGTCCTAAAGGAGAGAGAGGTTACGATGGAGTTGTTGGTGATAAAGGAATGCAGGGAGAAAACGCCTCCATAGGAATGAAAGGCATGTCTGGAGACATGGGTTTTAATGGAATGCCAGGAAGACCAGGGCAAACTGGTTTAAAAGGTTTAAGAGGTGACATCGGCAACCCAGGATTAAATTTAAGAGGCCTTAATGGTACAAAAGGATTCCGAGGTGATGATGGCATTCCTGGAAGAGTAGGGGAAAAGGGTTTAAAAGGATTCCAAGGAGATTACGGTTTCGAGGGTATTGCTGGTGAAATAGGAGACGAAGGTTTTCCAGGTTTATCTGGTTTACCTGGACGAATAGGATTTGATGGTGCCAAAGGACCTTCAGGGCACAAAGGATTGCCAGGTTTACAGGGTCCGAAAGGTGATACAGGATTTGAGGGTGAACCAGGTAGAATGGGTTCACCAGGATATCCCGGTGACGTAGGCTTGCGAGGCTTGGTTGGTGAAAGGGGTCCATCTGGCGCCAAAGGAATGTCAGGAGATATTGGACCCAGTATTTATTTACCAGCCACCAAAGGGGATATGGGAGATATCGGAATGGAGGGACTAAAAGGGGGTAAAGGCGAAATGGGTGAACCTGGATTTCCAGGATTAAAAGGCCACAAAGGAGAACAAGGCGATGTAGGCTTACAAGGAGAATTTGGTGATGATGGACTTCCAGGTCCTAAGGGTTATTTAGGAGTAATGGGACCTCCAGGTTTACCAGGTCTAGATGGCATCAACCCTGAGCCAGGAGAACAAGGCAAATCTGGAATTGACGGATTACCAGGTTGGCCAGGTCCCATGGGTCAAAAGGGTGCTCCGGGAGAGTTTGGTATTAATGGTCCTGAAGGAGCACCTGGTCAACCAGGGCTCATTTTTAGTGGACCAAAAGGGTATAAGGGAGCAACTGGTCGACCCGGGCTAAGGGGCATTTCTGGTAAGCCTGGTTCAACAGGATTACAAGGAAATCCGGGACTAAAAGGATTAACTGGTGACATTGGTGAACCTGGCTATGCTATAAGCCCTAAGGGTGAAACAGGAAATCCTGGTATATCAGGGTTTTATGGCTTGAAAGGGATAAAAGGAGAAGCTGGAGATTTGGGACTGGCAGGTTTGAAAGGATATCAAGGCCCAATGGGAATGAAAGGAGAAAGAGGTGACGAAGGCTATGAAGGACTTAATGGATATTCAGGTGCTAAGGGAATGAAAGGTGATAGAGGAGATGAAATACTTCCATCAGATGTTGAGCCCGGGCCAATTGGTGATATAGGTCCTCCTGGATTTGATGGGCAACCTGGTCGTGCAGGAGCTCCCGGAAATTTCGGAGAAAATGGCATTCCTGGATTCAAAGGTGAAAGAGGTGATATTGGAGATATTGGTCCTGAAGGTTTGCTAGGCAAACAAGGTGGACAAGGGTTCATGGGTATCAAAGGAGAAATTGGTTTTGATGGAATCCGTGGTTTGCCTGGTCTTCCTGGATTACCAGCACCTCCTCCACCAATTCCTAAATCAAGAGGATTCTATTTTACAGTACATTCACAGACTCATCTCATTCCCGAATGCCCCTCTGGAACTACACCTTTATGGGAAGGATTCTCCTTACTTCATATAGTTGCAAATTCTAAGGCCCATGGACAAGATTTAGGTGCACCTGGAAGTTGTCTTCGAAGATTTTCAACAATGCCTTATATGTTCTGTAACATAAACAATGTTTGTGATTTCGCCCAACGCGAAGACTACAGTTTTTGGCTATCAACACCAGAACCAATGCCAAGCGGAATGACCCCAATTCCAGCAACTGACGTTGGATCATACATATCCAGGTGTCAAGTGTGCGAGACATCAACACGATCCATTGCTATTCATAGCCAAAGCAGCTCCATACCAACTTGTCCAGATGGTTGGGATGAATTATGGATAGGTTATAGTTTCCTTATGCATACCGCTGGAGCTGATGCGGCAGGTCAAAGTCTCATATCACCGGGATCCTGCCTTCGGGAATTCAGAACGCGACCATTCATAGAATGTAACGGACTCGGCCGTTGCAACTTTTTCGCAACCGCGGTTTCATATTGGTTATCAACAATTGATGACAACAAAATGTTTGAAACACCTATTCAAGAAACACTGAAACAAAATAAAGTTTCTAGAGTCAGCAGGTGCGCCGTATGTATGCGACGTCAACCACAGAGGTCGTATAGCGCAGGCACAGTGGAGGCTGTACCTAACGCAGTAGTACGACGCCCCGTCAACCGACCTCTTAACCGGCTTCGGCCTCGCTACCCTGCGAGGTACCGGGGGAGACGCCGCCATTGA

Protein sequence:

>DPOGS206549-PA
MQVVCNQTVCDCAGLKGDRGDIGSPGIPGPQGDYGEDGPDGPMGPPGEPGDWGEKGISGDKGERGVDGPYGPRGFTGPQGPTGLEGVRGIAGLDGCSGIDGIMGPPGPQGIPGDRGLPGPYGEKGTQGLAGEGGVNSRGAKGDQGDSGRPGLQGPRGPIGWRGDSGMPGEVGDQGPMGYRGEPGYRGDLGDDVVGPQGEKGDQGEVGESGRPAKVIYIDHLQENVTILAKGNRGDKGFAGTQGVKGVKGDTGSMGPPGPNGLNGDQGYKGDQGIDGPRGKPGHRGRKGPLGPKGDKGWPGYAGLDGEDGEPGARGEDGRPGMPGVQGPQGEKGIYDERLNEPLLPGSNGPQGPVGYPGPPGPPGADGTRGLPGIQGPPGLPGPKGIAGRQGPPGSSEKGEPGNDGFKGLPGPRGPMGYPGPQGVLGPKGFKGSAVRGPEGEEGTPGLDGRPGIRGDRGDFGFMGLPGYPGRGVHGVGPPGEDGPPGRPGVVGDSGTPGRPGFRGPKGERGDDCPFCPSGLPGMKGKRGDEGFKGQKGYPGPEGDRGQRGLKGESGSPGLPGSKGPKGITGPPGMTGRPGLQGEKGRLIQPPLSLIIAERGPRGFIGDPGLRGDPGFPGLRGENGWKGSKGMAGEDGFPGPDGRDGLKGRDGVPGMPGEHADVPIQFLFGQRGDKGIKGQLGEPGDDGLKGDAGEALGFGINAKGEKGEPGPMGPEGLQGIKGDSGDIGYEGLPGERGDIGLPGVSKQGERGARGFPGDKGDIGPYGEPGGPGLRGPVGFDALKGKKGSRGEVGYAIIYGERGFDGMAGDYGDVGEPGYAGNPGRAGLMGPKGEPGLPGDVGPPGPVGPPGRKGMSGNIIQGAPGMPGQPGRLGSIGLIGEPGLQGYNGLQGDVGPKGMKGEAGRMGNRGWTGERGLTGRRGRPGLMGQPGLSGETGDRGETGLRGYDGLPGKEGPLGIIGQKGIRGDIGLPGADGLGGPPGPKGERGYDGVVGDKGMQGENASIGMKGMSGDMGFNGMPGRPGQTGLKGLRGDIGNPGLNLRGLNGTKGFRGDDGIPGRVGEKGLKGFQGDYGFEGIAGEIGDEGFPGLSGLPGRIGFDGAKGPSGHKGLPGLQGPKGDTGFEGEPGRMGSPGYPGDVGLRGLVGERGPSGAKGMSGDIGPSIYLPATKGDMGDIGMEGLKGGKGEMGEPGFPGLKGHKGEQGDVGLQGEFGDDGLPGPKGYLGVMGPPGLPGLDGINPEPGEQGKSGIDGLPGWPGPMGQKGAPGEFGINGPEGAPGQPGLIFSGPKGYKGATGRPGLRGISGKPGSTGLQGNPGLKGLTGDIGEPGYAISPKGETGNPGISGFYGLKGIKGEAGDLGLAGLKGYQGPMGMKGERGDEGYEGLNGYSGAKGMKGDRGDEILPSDVEPGPIGDIGPPGFDGQPGRAGAPGNFGENGIPGFKGERGDIGDIGPEGLLGKQGGQGFMGIKGEIGFDGIRGLPGLPGLPAPPPPIPKSRGFYFTVHSQTHLIPECPSGTTPLWEGFSLLHIVANSKAHGQDLGAPGSCLRRFSTMPYMFCNINNVCDFAQREDYSFWLSTPEPMPSGMTPIPATDVGSYISRCQVCETSTRSIAIHSQSSSIPTCPDGWDELWIGYSFLMHTAGADAAGQSLISPGSCLREFRTRPFIECNGLGRCNFFATAVSYWLSTIDDNKMFETPIQETLKQNKVSRVSRCAVCMRRQPQRSYSAGTVEAVPNAVVRRPVNRPLNRLRPRYPARYRGRRRH-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: