MonarchBase - Protein-coding gene

DPOGS206070
Transcript	DPOGS206070-TA	4023 bp
Protein	DPOGS206070-PA	1340 aa
Genomic position	DPSCF300028 - 390053-396799
RNAseq coverage	764x (Rank: top 17%)

Annotation
*Heliconius*	HMEL005039	96.95%
*Bombyx*	BGIBMGA006851-TA	95.52%
*Drosophila*	CG2807-PA	81.04%
EBI UniRef50	UniRef50_E0VK59	82.79%	U2 snRNP component prp10, putative n=49 Tax=Eukaryota RepID=E0VK59_PEDHC
NCBI RefSeq	XP_623732.1	84.44%	PREDICTED: similar to CG2807-PA isoform 1 [Apis mellifera]
NCBI nr blastp	gi\|383857066	84.21%	PREDICTED: splicing factor 3B subunit 1-like [Megachile rotundata]
NCBI nr blastx	gi\|189240885	84.00%	PREDICTED: similar to U2 small nuclear ribonucleoprotein [Tribolium castaneum]

Group
Gene Ontology	GO:0005488	5.4e-142	binding
KEGG pathway	ame:551331	0.0
	K12828 (SF3B1, SAP155)	maps->	Spliceosome
InterPro domain	[940-1216] IPR011989	5.4e-142	Armadillo-like helical
	[529-1332] IPR016024	2.3e-95	Armadillo-type fold
	[329-477] IPR015016	1.9e-37	Splicing factor 3B subunit 1
Orthology group	MCL11450		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS206070-TA
ATGGATAAAATACCGCGTACTCATGAAGCCATCGAGGCCCAAATAAAAGAAATACAATCGAAGAAAAAAGAGCTCCCTGAAAATGGTTCAGGCAAGGGTGTTTCTCTGGGTGATGCCTTCTATGACAGTGACATTTATGACAATTCTGGCCAAGGAGGGAAATCCAGATACGATGGCTACGTGACTTCTATTGCTGCGAATGATGAAGTGGAGGATGAGGATGTAGAGAATGTTCCAATATCACAGAAGAGACCTGGCTATACTGCTCCCGCTTCTTTATTAAATGATATAGCTCAGAGTGATAAAGATTATGATCCTTTTGCTGATAAGAGAAGACCTACTATTGCAGACAGGGAAGATGAGTATCGCCAGAAAAGGCGTAGGATGATTATATCACCAGAACGTTCCGATCCTTTTGCTGAAGGTGGAAAGACACCAGATGTTGGTTCTAGGACATACACAGAAATTATGAAGGAACAGTATTTGCGGGCTGAAGAAACAGAGTTACGGAAAAAGCTCCTGGAAAGAGCACGAGAAGGCACACTCAAGGCAGTATCACAGTCAAATGGTGAGGCAACAAAACCAGCAGCGAAACGTAAAGGTCGCTGGGACCAGAGCTCAGAGGATACACCGTCTGTGAAAAAACCTGTGGTTCAAGCTACACCAAGCTCTCAGGCTACACCATCCTGGGAAAATGAGCGAGGTGCATGGGAAGAAACACCAAGTGCAGGTGGCCGTGGTGGTGAGACACCTGGTGCGACGCCGTCTGCACGTGTGTGGGACGCCACGCCGGCTCATCTTACACCGGGCCATGCTACACCCGGTCGTGAGACGCCCGCTCACCATGCCTCCAGACGAAACCGGTGGGATGAGACACCCAAAACTGATAGAGAAACGCCTGGACATGCCAGCGGTTGGGCCGAAACTCCTCGTACAGATCGCGGCGTAGGTGTCGATACTATACAAGAGACGCCCACGCCGGGCACTAAGAGACGATCGCGCTGGGATGAGACTCCTGGCGCCACTCCCGCCGCAGCTACACCCACACCCTCACACGCGACACCTTCACACGCCACGCCCTCACATGCTACACCCTCCATGGGCACACCGACACCTCATACACCAATGTTTACTCCAGGCGGGTCAACACCGGTGGGTGTTAAGGCAATGGCCATGGCGACACCAACGCCGGGCCACATCGCAGCTATGACACCAGAGCAGTTGCAAGCGTATCGCTGGGAGAAAGAAATCGACGAACGAAATAGACCGTACACTGATGAAGAACTGGATGCCATGTTCCCACCTGGGTACAAGGTTTTGCCTCCACCGGCCGGTTATGTTCCTATTCGGACCCCGGCTCGTAAGCTGACCGCGACGCCCACACCTTTGGCTGGTACCCCAATCGGCTTTTTCATGCAGACGGAGGAAGTAGGCGGGAGTGCTGCAGCAGCGGCGCGGCTCCTCGACCCGCAGCCCAAAGGCAGTCAGCAGCTGCCGTTCATGAAGCCCGAGGACGCTCAGTACTTCGACAAACTTCTTATCGACGTCGACGAAGAAACACTGTCACCCGAAGAACTGAAGGAGAGAAAGATCATGAAGTTGCTGCTTAAGATTAAGAATGGAACACCGCCTATGTGCAAAGCAGCTCTCCGTCAAATCACAGACAAAGCTCGGGATTTCGGCGCCGGACCGCTCTTTAATCAAATCCTACCGTTATTGATGAGTCCTACACTCGAAGATCAAGAACGTCATCTCTTAGTAAAAGTTATAGATCGAATTCTTTACAAATTAGATGATTTGGTCCGCCCATATGTACACAAAATTTTGGTCGTCATAGAACCTCTGCTTATTGATGAAGATTACTACGCCCGTGTCGAGGGTCGAGAGATCATATCCAACTTGGCAAAAGCAGCTGGTTTAGCCACAATGATCTCTACAATGAGACCAGATATTGATAATATCGATGAATATGTTCGAAACACCACGGCCAGGGCCTTCGCTGTTGTTGCATCTGCTTTAGGTATACCGTCATTATTGCCGTTTTTAAAGGCCGTGTGCAGATCGAAGAAGTCATGGCAGGCTCGTCACACCGGTATCAAAATCGTGCAACAAATCGCAATTCTAATGGGATGTGCCATTTTGCCCCATCTGAAGTCGCTCGTGGAAATCATTGAGCATGGCTTGGTCGACGAACAACAAAAAGTTAGGACAATCACGGCGTTGGCGAGCGCCGCTTTAGCCGAAGCAGCCACGCCGTACGGTATCGAGTCCTTTGACTCTGTGCTAAAACCATTATGGAAGGGTATCAGAACCCATCGCGGTAAGGGTCTAGCGGCCTTCCTTAAAGCTATCGGCTACCTCATACCTCTCATGGACGCCGAATATGCAAACTATTACACCCGTGAGGTGATGCTTATATTGATCCGTGAGTTCCAGTCGCCCGACGAGGAAATGAAGAAGATTGTATTGAAGGTGGTGAAGCAGTGCTGCGGAACAGATGGTGTTGAACCTCAGTATATAATGGATGAAATCTTACCTCACTTCTTCAAACATTTCTGGAATCACAGAATGGCTTTGGACCGTCGCAACTATCGCCAACTTGTCGATACAACACAGCTTTATCGATTGTTCCATCAAGTTGGGGCGTCCGAAATAATAAACAGAATCGTAGACGATCTCAAGGATGACAACGAACAGTATAGGAAAATGGTTATGGAGTCCATTGAAAAAATTCTAGCCAACTTGGGCGCAGCTGATATAGATTCTAAGCTTGAGGAAGCCTTGATTGACGGCATTCTATACGCCTTCCAAGAACAGACCACTGAGGACGTGGTGATGTTGAATGGATTTGGTACAATAGTGAATCAACTCGGTAAGCGAGTCAAGCCTTATTTACCACAAATCTGTGGTATAATTCTGTGGCGTATGAACAACAAGTCGGCAAAGGTGAGGCAACAAGCTGCCGATCTTATTTCTCGTATCGCCGTAGTCATGAAAACTTGTCAGGAGGAAAAACTTATGGGGCATCTCGGTGTAGTGCTATATGAATATCTCGGGGAGGAATATCCTGAAGTACTCGGTTCTATTCTGGGTGCCTTAAAGGCTATAGTGAATGTGATCGGTATGACCAAAATGACACCACCCATCAAGGATTTACTTCCTAGATTAACGCCAATTCTCAAGAACAGACATGAAAAAGTGCAAGAAAATTGCATTGATCTGGTCGGACGTATTGCAGACAGGGGTCCCGAATTCGTGTCAGCGAGAGAGTGGATGAGGATTTGCTTTGAACTGCTGGAATTGCTCAAAGCACACAAGAAAGCTATCAGGAGAGCCACAGTCAATACATTTGGTTACATCGCCAAAGCTATCGGTCCGCATGACGTACTTGCTACACTGCTCAATAATCTTAAAGTTCAAGAGAGACAGAACAGAGTGTGCACAACAGTTGCAATTGCCATTGTAGCTGAGACATGTTCTCCATTCACAGTCTTGCCAGCGCTGATGAATGAGTACAGAGTTCCAGAATTAAATGTTCAGAATGGTGTTTTGAAATCGTTGTCATTTTTGTTTGAATACATCGGAGAAATGGGTAAAGATTACATATATGCTGTGTGCCCGTTACTAGAGGACGCACTTATGGACAGAGATTTAGTGCATCGACAAACTGCATGTGCCGCAATAAAACATATGGCATTGGGAGTGTATGGTTTCGGCTGTGAGGATGCTCTAATACATTTGCTGAACCATGTTTGGCCGAATATATTTGAAACCTCGCCTCATCTTGTACAAGCTTTTATGGACGCGGTTGAGGGCATGAGAGTTGCACTTGGCCCAATAAAAATACTCCAGTACGCATTACAGGGCTTATTCCATCCAGCTCGAAAGGTCCGTGATGTTTACTGGAAGATATATAACACATTATATATCGGAGGCCAAGACGCCCTGGTCGCTGGTTACCCACGGATACAAAATGATCCCAACAATCATTTTGTCAGATACGAGTTAGACTATTTGTTGTAG

Protein sequence:

>DPOGS206070-PA
MDKIPRTHEAIEAQIKEIQSKKKELPENGSGKGVSLGDAFYDSDIYDNSGQGGKSRYDGYVTSIAANDEVEDEDVENVPISQKRPGYTAPASLLNDIAQSDKDYDPFADKRRPTIADREDEYRQKRRRMIISPERSDPFAEGGKTPDVGSRTYTEIMKEQYLRAEETELRKKLLERAREGTLKAVSQSNGEATKPAAKRKGRWDQSSEDTPSVKKPVVQATPSSQATPSWENERGAWEETPSAGGRGGETPGATPSARVWDATPAHLTPGHATPGRETPAHHASRRNRWDETPKTDRETPGHASGWAETPRTDRGVGVDTIQETPTPGTKRRSRWDETPGATPAAATPTPSHATPSHATPSHATPSMGTPTPHTPMFTPGGSTPVGVKAMAMATPTPGHIAAMTPEQLQAYRWEKEIDERNRPYTDEELDAMFPPGYKVLPPPAGYVPIRTPARKLTATPTPLAGTPIGFFMQTEEVGGSAAAAARLLDPQPKGSQQLPFMKPEDAQYFDKLLIDVDEETLSPEELKERKIMKLLLKIKNGTPPMCKAALRQITDKARDFGAGPLFNQILPLLMSPTLEDQERHLLVKVIDRILYKLDDLVRPYVHKILVVIEPLLIDEDYYARVEGREIISNLAKAAGLATMISTMRPDIDNIDEYVRNTTARAFAVVASALGIPSLLPFLKAVCRSKKSWQARHTGIKIVQQIAILMGCAILPHLKSLVEIIEHGLVDEQQKVRTITALASAALAEAATPYGIESFDSVLKPLWKGIRTHRGKGLAAFLKAIGYLIPLMDAEYANYYTREVMLILIREFQSPDEEMKKIVLKVVKQCCGTDGVEPQYIMDEILPHFFKHFWNHRMALDRRNYRQLVDTTQLYRLFHQVGASEIINRIVDDLKDDNEQYRKMVMESIEKILANLGAADIDSKLEEALIDGILYAFQEQTTEDVVMLNGFGTIVNQLGKRVKPYLPQICGIILWRMNNKSAKVRQQAADLISRIAVVMKTCQEEKLMGHLGVVLYEYLGEEYPEVLGSILGALKAIVNVIGMTKMTPPIKDLLPRLTPILKNRHEKVQENCIDLVGRIADRGPEFVSAREWMRICFELLELLKAHKKAIRRATVNTFGYIAKAIGPHDVLATLLNNLKVQERQNRVCTTVAIAIVAETCSPFTVLPALMNEYRVPELNVQNGVLKSLSFLFEYIGEMGKDYIYAVCPLLEDALMDRDLVHRQTACAAIKHMALGVYGFGCEDALIHLLNHVWPNIFETSPHLVQAFMDAVEGMRVALGPIKILQYALQGLFHPARKVRDVYWKIYNTLYIGGQDALVAGYPRIQNDPNNHFVRYELDYLL-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: