MonarchBase - Protein-coding gene

DPOGS205411
Transcript	DPOGS205411-TA	2394 bp
Protein	DPOGS205411-PA	797 aa
Genomic position	DPSCF300407 + 220750-232851
RNAseq coverage	370x (Rank: top 32%)

Annotation
*Heliconius*	HMEL007153	93.59%
*Bombyx*	BGIBMGA001579-TA	91.30%
*Drosophila*	Cbp80-PB	74.78%
EBI UniRef50	UniRef50_Q7K4N3	74.78%	Nuclear cap-binding protein subunit 1 n=44 Tax=Coelomata RepID=NCBP1_DROME
NCBI RefSeq	XP_973056.2	77.40%	PREDICTED: similar to AGAP001195-PA [Tribolium castaneum]
NCBI nr blastp	gi\|189234539	77.40%	PREDICTED: similar to AGAP001195-PA [Tribolium castaneum]
NCBI nr blastx	gi\|189234539	77.40%	PREDICTED: similar to AGAP001195-PA [Tribolium castaneum]

Group
Gene Ontology	GO:0016070	2.4e-113	RNA metabolic process
	GO:0005488	2e-98	binding
	GO:0005515	1.2e-36	protein binding
KEGG pathway	tca:661829	0.0
	K12882 (NCBP1, CBP80)	maps->	Spliceosome
InterPro domain	[30-289] IPR016021	2.4e-113	MIF4-like, type 1/2/3
	[483-797] IPR016024	2e-98	Armadillo-type fold
	[487-759] IPR015174	1.5e-71	MIF4G-like, type 2
	[342-473] IPR015172	6.8e-56	MIF4G-like, type 1
	[30-242] IPR003890	1.2e-36	MIF4G-like, type 3
Orthology group	MCL14287		Single-copy universal gene

Nucleotide sequence:

>DPOGS205411-TA
ATGAATCGTAGAAGGGCACATGAAGAAGAAGACGGTTATGAACGTCTGCATAGAAAACGCCGGAGGGTTTCAGAAAATCAAGAAATTGAGGATAGATTAGAATCCCTTATTTTAAGAGTAGGAGAGAAAAGTAGTTCTAGCTTAGAGAGCAATTTAGAAGGCTTGGCGAGTGTGTTGGAAGCCGATTTGAGTACATTTAGAGTGAAAATATTACGTATTTTAACAGAATGTGCTATACGAATGCCAGAGAAATGTACTATTTATGCAACATTAGTTGGATTGCTAAACGCAAAAAATTATAACTTTGGTGGCGAATTTGTGGATTACATAGTCAAAACGTTTAAAGAAAATCTCAAAACTGGTAAATGGAACGCAGCCCGTTATTGCTTGAGGTTTATAGCTGATCTAGTTAACTGTCATGTGTTGGCTGCTTCATCCCTATTGACATTGTTAGAAACATTGGTTGACTGTGCTAATGAAGATGGTGTGCCACAAGTCCGACGTGATTGGTTTGTGTTTGCCGTACTTGCTACTTTGCCATGGGTTGGTAGAGAATTGTATGAAAAGAAAGAATCACAATTAGATCACTTGCTGGTAACCATAGAGGTGTTTTTAAACAAGAGAAGTAAAAAACATTGGCCAGCTCTAAAAGTATGGTCGGCAGACTCACCGCATCTTCAAGAAGAATATTTGGATTGTTTGTGGGCTCAAATCAAAAAGTTAAGACAGGATAACTGGTCAGAAAAACATATACCTAGGCCTTATCTTGCTTTCGATTCTATATTGTGTGAGGCCTTACAACACACACTACCTACAATTCAGCCTCCACCTCACAATGATGGCGACACATATCCAATGCCCCGAGTTATATTCCGTATGTTTGACTACACCGATTGTCCCGACGGCCCTGTACTTCCAGGTGCCCACTCCATAGAAAGGTTCCTTATAGAGGAACACCTCCATAATATCGTTGAAGCATACCATCTAGAGCGAAAGGAATGCGCCGCTCAACTCCTATGTTTTCCGTATAAATCTAAAATCCCACTAGAGTACTGTATCGTTGAAGTTATATTTGCTGAGCTGTTCAATTTGCCGAGACCGAGATATTTGGAGATATGTTATGGATCTATTCTAATTGAGCTCTGTAAGCTGCAACCGTCCACGATGCCGCAAGTTTTGGCACAAGCTACTGAGATTCTTTTCATGAGAATCGATACAATGAATATAGCATGTTTTGACAGATTAGTGAACTGGTTTTCGTATCACTTGAGCAACTTCCAATATCGTTGGTCCTGGGAAGATTGGGAGGGATGCGCTCAGCTAGACCCTGAACATCCTAAGCCGAGATTCATCAGGGAGGTGCTCGGCAAGTGTCTTAGGTTGTCATATCATCAAAGGATCAAAGACATGACACCGGAATCGCTAGCAGCATACGTCCCTCTCAAACCTGAACCCATTTACAAATATGCCATGGAAGGAGCGGCCTCTCTCCCAGGAACAGAAGCTGCTCATCAATTAGTTGTGTGCGTCCGTAATAAATGTACGCCCGAAGAGGCGTTGAACGTGCTCCGGGAACTACCGAACCCTTTACGCGAGGGTGAAGCCAACGCCGCTCATACAGCCTACAACCCGCTCAAGATTGACGTATTTGTCCAAACTCTGCTAAACCTCGGCAGCAAGAGCATCTCCCACAGCTTCGCCGCTATATCTAAGTTCCATTACGTTTTTAAGATCCTAGCGGAGTCTGAAGAAGCCCAGATCTGTGTTCTTCGCAACGTTTGGGAGTTATGGCAGAGGCACAGTCAGATGGTGTGCGTTCTGGTCGATAAAATGTTGAAAACTCAGATCGTTGAATGCAGCGCTGTCGCTACGTGGCTGTTCTCTAAGGAAATGGCGCCATACTTCACCCACGGATATCTATGGGAGATATTACATCTCACCATAGACAAGATGAACAAACACGTCTCCAAATTGAGCAAGGAATTACAAGAAGCAAGGGAGGCGTTGGCGAGAGCCGATTCAAGCAGTTCCGAGTCAGAAGACGAGAGCGGCAGCAAGAAGAAGAAAGACCAAGACAAACCCACGGAAGAGGCGGTGGAGCGTATGGAGGAACGCCTGGAGATGGCGCACACGGACCAGAAGCGTCTGTTCCTGATAGTGTTCCAGAGGTTCATCATGATTCTGTCCGAACACCTGGTGAGAGCCGACACCGACGCGAGGGATCCCCACACCCACTGGTACAGGGCCACCCTCGCCCGGCTGCGACAGGTGTTCCTGCTTCATCACGAACAGGTCCAGAAGTACAGCAGTACGTTGGAAACGCTTCTGTTCACTCAAGACCTGGACCCACACATTCTGGACGTCTTCCATCAATTCGTAGCTCTCACCGCATAA

Protein sequence:

>DPOGS205411-PA
MNRRRAHEEEDGYERLHRKRRRVSENQEIEDRLESLILRVGEKSSSSLESNLEGLASVLEADLSTFRVKILRILTECAIRMPEKCTIYATLVGLLNAKNYNFGGEFVDYIVKTFKENLKTGKWNAARYCLRFIADLVNCHVLAASSLLTLLETLVDCANEDGVPQVRRDWFVFAVLATLPWVGRELYEKKESQLDHLLVTIEVFLNKRSKKHWPALKVWSADSPHLQEEYLDCLWAQIKKLRQDNWSEKHIPRPYLAFDSILCEALQHTLPTIQPPPHNDGDTYPMPRVIFRMFDYTDCPDGPVLPGAHSIERFLIEEHLHNIVEAYHLERKECAAQLLCFPYKSKIPLEYCIVEVIFAELFNLPRPRYLEICYGSILIELCKLQPSTMPQVLAQATEILFMRIDTMNIACFDRLVNWFSYHLSNFQYRWSWEDWEGCAQLDPEHPKPRFIREVLGKCLRLSYHQRIKDMTPESLAAYVPLKPEPIYKYAMEGAASLPGTEAAHQLVVCVRNKCTPEEALNVLRELPNPLREGEANAAHTAYNPLKIDVFVQTLLNLGSKSISHSFAAISKFHYVFKILAESEEAQICVLRNVWELWQRHSQMVCVLVDKMLKTQIVECSAVATWLFSKEMAPYFTHGYLWEILHLTIDKMNKHVSKLSKELQEAREALARADSSSSESEDESGSKKKKDQDKPTEEAVERMEERLEMAHTDQKRLFLIVFQRFIMILSEHLVRADTDARDPHTHWYRATLARLRQVFLLHHEQVQKYSSTLETLLFTQDLDPHILDVFHQFVALTA-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: