MonarchBase - Protein-coding gene

DPOGS214942
Transcript	DPOGS214942-TA	2583 bp
Protein	DPOGS214942-PA	860 aa
Genomic position	DPSCF300280 - 113346-120568
RNAseq coverage	759x (Rank: top 17%)

Annotation
*Heliconius*	HMEL015593	71.84%
*Bombyx*	BGIBMGA004823-TA	80.73%
*Drosophila*	CG3605-PA	56.72%
EBI UniRef50	UniRef50_F4WDL6	56.07%	Splicing factor 3B subunit 2 n=5 Tax=Formicidae RepID=F4WDL6_ACREC
NCBI RefSeq	XP_975513.2	60.53%	PREDICTED: similar to CG3605 CG3605-PA [Tribolium castaneum]
NCBI nr blastp	gi\|270009555	60.53%	hypothetical protein TcasGA2_TC008829 [Tribolium castaneum]
NCBI nr blastx	gi\|242011371	57.05%	Splicing factor 3B subunit, putative [Pediculus humanus corporis]

Group
Gene Ontology	GO:0006397	1.2e-59	mRNA processing
	GO:0005634	1.2e-59	nucleus
KEGG pathway	tca:664413	0.0
	K12829 (SF3B2, SAP145, CUS1)	maps->	Spliceosome
InterPro domain	[428-555] IPR007180	1.2e-59	Domain of unknown function DUF382
	[560-618] IPR006568	1.3e-29	PSP, proline-rich
Orthology group	MCL12203		Single-copy universal gene

Nucleotide sequence:

>DPOGS214942-TA
ATGGACGGTCCACCGGGAACTACGTCTGGAGGTAGTACCAGTTCTATGGGCCCACCGCCAGGAATGCCGAGTTTTCCTCCCATGCCTCCATCGTCAGGCCCCATGGGTCCTGGAAGTATGCCGCCTCCTCCAGTGGGTCCACCTGGTACAATGCCTGCAGTCACAACATCTGGTGGTCCACCAAACATGCCGCCACCAGGAATGGGTCCACCTCCTAACATGATGGGTATGGGTCCTCCTGGTATCGGTCCTCCACCCCCGCCCGGTTTGGGACCCCCAGGAATCAACATGGGACCTCCTCCGATGGGACCGCCAGGCCTTCCGTCACGAATGCCTCCTAACATGATGCGGGGAACATCTAATATGAAGAGTAACTACAATCAAACTATAGATATGGGACCGCCTGGTATGGTGCCACCCTCTAGTATGAATCCTTGGGACAATCAATGCCCTCCTGGTTGGGGGCGACAAGGGAGAGGGGATGGCCCTCCAGGATGGGACGATCAGGACGATGATGAAGATGATAATGATGATGAAAGTGATCCTTCAGGACCTCCACTACCATCCTTGTTGACCATGAAAATAGATACACCCGAGGAGTTCAGAAATAAACCCCCTTCTGCTGTGGGTGGTGTTGTGCTACCAAAAGCCTTGGAGGAGGCACTCGCTTACAAAGATCAAAGACAAGCTGCCTTAGGAGATGAAGCAGATAAAGTAACAGAGCAAACAAAGAAACCTGAACCTCCACCGGCACCTGTGATCAGTACAGAGTATGATGGTGAAGAAGAAGGAGACTCGGATGAAGATAACATACCAGAAGCTCCCTTACCACCAATAATATCTAAGCAAGAGAATCAAACCAAAGCGAGTAAAACTAAACGGAAAAAGAAGAAGAAGAAGGCGGCGAAACAGAAGAGAAAAGAAGCAAAGTCGGCCGACGAAAGTAGCAAAGAAGCCCAGAAGACCAGCGACAAAGAAAACGAAAAGGAAGCTGAAATCGAATACGTCCAAGAGAACATACAGTTCCACGAACTGGAGCCCATGTACCGTCAGTTCCACCGCATCCTGGAATCGTTTAAGATAACGGAGAGGAAGGAGGAGATCAAGGATGAACCCGGGAAAGATGCACCGAAACCGAGCAAGCCGCTGGAGAAAGTTACCGACCAATTTGCAGCTGACGAAGAGGCTGTTGAGAAACATGCAGCCGATGAGAAGGAGCGGCTCTCAAAACGCAAGTTAAAGAAGCTGTCTCGTCTGTCCGTGGCGGAGCTGAAGCAACTGGTGGCCCGGCCGGATGTAGTGGAGATGTACGACGTCACCGCCAGGGACCCCAAACTGCTGGTACAGCTGAAGGCTCACAGGAACACTGTCCAAGTGCCGCGCCACTGGTGTTACAAACGGAAGTATCTGCAAGGCAAGCGCGGTATCGAGAAGCCGCCGTTCGACCTGCCGGACTTCATCAAGAAGACCGGCATCATGGAGATGAGAGCCTCGCTCCAGGACAAGGAGGAAACTAAGACATTGAAGGCGAAGATGAGGGAGAGGACGCGACCCAAGCTCGGGAAGATTGACATCGACTACCAGAAGCTGCACGACGCGTTCTTCAAGTGGCAGACGAAACCTCGCATGACCATCCACGGTGACCTCTACTACGAGGGTAAGGAGTATGAAACTCGACTGAGAGAAAAGAAACCGGGAGATCTCTCAGAGGAACTGAGAACCGCACTGGGCATGCCGGTGGGACCTGGCTCTCATAAGGTGCCGCCGCCGTGGCTGATCGCCCAGCAGCGTTACGGACCGCCTCCGTCTTACCCAAACCTCAAGATCCCGGGCCTGAACGCTCCTATACCCGAGGGTTGCGCCTTCGGGTACCACGCGGGCGGCTGGGGTAAGCCTCCCGTCGATGAAGCCGGCAAACCTCTCTACGGAGACGTGTTCGGACATCAGAGCAGCGGCCAAGATGATGCCGAGGATCAAGATATAGACAGGACCATGTGGGGTGAACTGGAGTCGGAGTCAGAGGAGGAATCGGAAGAAGAGGAATCAGATGAGGGCGAGAAGGCCGGTGAGGGTGAGGCCGTGGCAGCGGGCGTGGCGACTCCTGGTGAGGGACTCGTCACACCGCTGGGCACCAGCTCTGTACCGCCCGGACTGGAGACACCTGACACCATCGAGCTCAGGAAGAAGAAGATGGAGGATCTAGAAGGCGGTGAGACACCGGCCTTGTATCAAGTGGTCCCCGAGAGACGAGTTGGTCTCACGTCTGGTATGATGGCGTCCACACATGTGTATGACATCAATGCCGCAAATCCTGGTAAACGAGCTCCGACCGGTGCAACCAGTGAGGTTGGTCCCAGCGCTGCAGCTGGTGTAGAAGTGGCGCTGGACCCCTCGGAGCTGGAGCTGGAGCCCGAGGCTGTGGCGGCCAGGTACGAGAGACACCTGCGGGAACACAGGCCCAAGGGACGCGAGGACCTCTCAGATATGTTGGCCGACCACGTCGCCAGACAGAAGAATAAACGAAAGCGTCAACAAAACACAGATTCCAAGCAAGCGAAGAAATACAAAGAATTCAAGTTCTAA

Protein sequence:

>DPOGS214942-PA
MDGPPGTTSGGSTSSMGPPPGMPSFPPMPPSSGPMGPGSMPPPPVGPPGTMPAVTTSGGPPNMPPPGMGPPPNMMGMGPPGIGPPPPPGLGPPGINMGPPPMGPPGLPSRMPPNMMRGTSNMKSNYNQTIDMGPPGMVPPSSMNPWDNQCPPGWGRQGRGDGPPGWDDQDDDEDDNDDESDPSGPPLPSLLTMKIDTPEEFRNKPPSAVGGVVLPKALEEALAYKDQRQAALGDEADKVTEQTKKPEPPPAPVISTEYDGEEEGDSDEDNIPEAPLPPIISKQENQTKASKTKRKKKKKKAAKQKRKEAKSADESSKEAQKTSDKENEKEAEIEYVQENIQFHELEPMYRQFHRILESFKITERKEEIKDEPGKDAPKPSKPLEKVTDQFAADEEAVEKHAADEKERLSKRKLKKLSRLSVAELKQLVARPDVVEMYDVTARDPKLLVQLKAHRNTVQVPRHWCYKRKYLQGKRGIEKPPFDLPDFIKKTGIMEMRASLQDKEETKTLKAKMRERTRPKLGKIDIDYQKLHDAFFKWQTKPRMTIHGDLYYEGKEYETRLREKKPGDLSEELRTALGMPVGPGSHKVPPPWLIAQQRYGPPPSYPNLKIPGLNAPIPEGCAFGYHAGGWGKPPVDEAGKPLYGDVFGHQSSGQDDAEDQDIDRTMWGELESESEEESEEEESDEGEKAGEGEAVAAGVATPGEGLVTPLGTSSVPPGLETPDTIELRKKKMEDLEGGETPALYQVVPERRVGLTSGMMASTHVYDINAANPGKRAPTGATSEVGPSAAAGVEVALDPSELELEPEAVAARYERHLREHRPKGREDLSDMLADHVARQKNKRKRQQNTDSKQAKKYKEFKF-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: