MonarchBase - Protein-coding gene

DPOGS215010
Transcript	DPOGS215010-TA	1599 bp
Protein	DPOGS215010-PA	532 aa
Genomic position	DPSCF300256 + 172354-177053
RNAseq coverage	444x (Rank: top 28%)

Annotation
*Heliconius*	HMEL010175	0.0	78.44%
*Bombyx*	BGIBMGA012191-TA	0.0	70.25%
*Drosophila*	U4-U6-60K-PA	1e-154	49.57%
EBI UniRef50	UniRef50_O43172	3e-152	50.28%	U4/U6 small nuclear ribonucleoprotein Prp4 n=80 Tax=Coelomata RepID=PRP4_HUMAN
NCBI RefSeq	XP_974218.2	2e-180	57.76%	PREDICTED: similar to wd-repeat protein [Tribolium castaneum]
NCBI nr blastp	gi\|307168954	1e-180	57.61%	U4/U6 small nuclear ribonucleoprotein Prp4 [Camponotus floridanus]
NCBI nr blastx	gi\|383856641	7e-178	58.24%	PREDICTED: U4/U6 small nuclear ribonucleoprotein Prp4-like [Megachile rotundata]

Group
Gene Ontology	GO:0005515	7.6e-74	protein binding
	GO:0008380	1.3e-15	RNA splicing
KEGG pathway	tca:663064	7e-180
	K12662 (PRPF4, PRP4)	maps->	Spliceosome
InterPro domain	[211-528] IPR015943	7.6e-74	WD40/YVTN repeat-like-containing domain
	[210-528] IPR011046	1.8e-70	WD40 repeat-like-containing domain
	[85-137] IPR003648	1.3e-15	Splicing factor motif
	[90-119] IPR014906	8.2e-13	Pre-mRNA processing factor 4 (PRP4)-like
	[490-527] IPR019781	6.7e-11	WD40 repeat, subgroup
	[404-443] IPR001680	3.8e-09	WD40 repeat
Orthology group	MCL14108		Single-copy universal gene

Nucleotide sequence:

>DPOGS215010-TA
ATGTCTGACGATGAAGTAGTGGCGGTGAAAAAGCCAAAACTGTATTATGGGTCTCTGGAGGAGCAGGAGAAGGCTCGTCTGGCAGCTCTGGCGGCTGCTGCCAGGGAGGGAGTCAAAGAAAGTGCCAAAGAAACTGGTGACATACAAATTTCCAATGAATACATGGAGCTAGAAGATGAGATAACAAAAGACAAAAAGGCATTGCTAGAGGAGTTTGAACGGAGGAGAAAAGCTCGTCAGTTGAATGTATCAACGGACGATGACGAGGTTAGACGGAGTCTCCGGCAGCTCGGTGAGCCTGTGTGTCTGTTCGGGGAAGGCCCAGCCGAGAGGAGGGTCCGGTTAAGGGACTTGCTCAGCTATCTAGGTGAGGATGCCATCCACAAGGCCCTGGAAGAGGAGGAGGCCCGCCTGGAGAGGGACCGGGGCCGGGAGGGGACCTGGTACCACGAAGGCCCCGCGGCGCTGAGGAGGGCGAGGATCGATATAGCCAGGTTCTCACTGCCGAGGGCCAAGCAAAGACTGGCCCAAGCTCGCTCAGAGTTGGAACTGGCCGGCAGCGTGCGAGCGGCCGCCAAGCAGGACGCTCAGAGGAAGGCCGCGGCTAACTCCATATATTGCAGTCAGATCGGTGACACGAGGCCTATAAGCTTCTGCAGGTTCAGTTCGGACAGTAAAATGCTCATAACATCGAGCTGGTCGGGCGTGTGCCGCGTGTGGTCGGTCCCTGGGTGTGTGGAGGTCCAGACGTTGTTGGGACACACGGGGAACGTCAGCTCTGCGACCTTCCACCCGAAGGCGATGATGCCGCATCATCTGCAGCTCAAGGCGGAAAAGGGGGAGAAGTCTGAGGATAAATCCGAGGATATGTCCGTGGATGTGTCGGACGCGTCGCATAACGTCGCGATGGCTTCCAGCGGATATGACGGCAGCGTGTTCCTGTGGAACTTTGTCAGCGAGTCTCCGCTGGCGTCCTTGCCCGGCCACGGCCCGGCCCGCGTGTCCAGGGTGGAGTTCCATCCGTCAGGTCGCTACCTGGCCGCCACGGTCTTCGATCACTCGTGGAGGCTGTGGGATCTGGAAACACAGACCGAGGTCCTTCACCAGGAAGGTCACGCCAAGCCGGTGTACAGCGTAGCCTTCCAGTGCGACGGGTCCCTGGCGGTGACCGGTGGAATGGACTCTTTCGGGCGCGTTTGGGACCTTAGGACGGGTCGCTGTGTGATGTTCCTCGAGGGTCACCTCGGCCCCGTGCTGGGGGTGGACTGGGCCCCCGCGGGTCACCAGCTCGCCACGGCCGCCGCCGATCACCAGGCGAAGATCTGGGACCTGAGGCGCCGGTCGTCCATATACACCATCCCTGCGCACACGCACCTCATCAGCGACATTCGTTATCAACGCACCCAGGGTCACTTCCTGTTGACCTCGTCCTATGACCACTCCGCCAAGCTGTGGTCCAACCCCGCCTGGCACCCGCTGAGGACACTCTCCGGACACGACAACAAGGTGATGAGCTGTGATATTTCACCCGACAATAAGTACATAGCGACCAGCTCCTACGACAGAACATTCAAGCTCTGGGCTCCGGACATGGCTTAA

Protein sequence:

>DPOGS215010-PA
MSDDEVVAVKKPKLYYGSLEEQEKARLAALAAAAREGVKESAKETGDIQISNEYMELEDEITKDKKALLEEFERRRKARQLNVSTDDDEVRRSLRQLGEPVCLFGEGPAERRVRLRDLLSYLGEDAIHKALEEEEARLERDRGREGTWYHEGPAALRRARIDIARFSLPRAKQRLAQARSELELAGSVRAAAKQDAQRKAAANSIYCSQIGDTRPISFCRFSSDSKMLITSSWSGVCRVWSVPGCVEVQTLLGHTGNVSSATFHPKAMMPHHLQLKAEKGEKSEDKSEDMSVDVSDASHNVAMASSGYDGSVFLWNFVSESPLASLPGHGPARVSRVEFHPSGRYLAATVFDHSWRLWDLETQTEVLHQEGHAKPVYSVAFQCDGSLAVTGGMDSFGRVWDLRTGRCVMFLEGHLGPVLGVDWAPAGHQLATAAADHQAKIWDLRRRSSIYTIPAHTHLISDIRYQRTQGHFLLTSSYDHSAKLWSNPAWHPLRTLSGHDNKVMSCDISPDNKYIATSSYDRTFKLWAPDMA-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: