MonarchBase - Protein-coding gene

DPGLEAN17195 in OGS1.0

New model in OGS2.0	DPOGS215010
Genomic Position	scaffold361:+ 85836-90535
	See gene structure
CDS Length	1599
Paired RNAseq reads	1171
Single RNAseq reads	2664
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA012191 (9e-173)
Best Drosophila hit	CG6322 (9e-130)
Best Human hit	U4/U6 small nuclear ribonucleoprotein Prp4 (6e-131)
Best NR hit (blastp)	PREDICTED: similar to wd-repeat protein [Tribolium castaneum] (3e-179)
Best NR hit (blastx)	PREDICTED: similar to CG6322-PA [Apis mellifera] (5e-161)
GeneOntology terms	GO:0008380 RNA splicing
InterPro families	IPR019781 WD40 repeat, subgroup IPR014906 Pre-mRNA processing factor 4 (PRP4)-like IPR003648 Splicing factor motif IPR001680 WD40 repeat IPR015943 WD40/YVTN repeat-like-containing domain IPR011046 WD40 repeat-like-containing domain IPR019775 WD40 repeat, conserved site IPR019782 WD40 repeat 2 IPR017986 WD40-repeat-containing domain
Orthology group	MCL13600

Nucleotide sequence:

ATGTCTGACGATGAAGTAGTGGCGGTGAAAAAGCCAAAACTGTATTATGGGTCTCTGGAG
GAGCAGGAGAAGGCTCGTCTGGCAGCTCTGGCGGCTGCTGCCAGGGAGGGAGTCAAAGAA
AGTGCCAAAGAAACTGGTGACATACAAATTTCCAATGAATACATGGAGCTAGAAGATGAG
ATAACAAAAGACAAAAAGGCATTGCTAGAGGAGTTTGAACGGAGGAGAAAAGCTCGTCAG
TTGAATGTATCAACGGACGATGACGAGGTTAGACGGAGTCTCCGGCAGCTCGGTGAGCCT
GTGTGTCTGTTCGGGGAAGGCCCAGCCGAGAGGAGGGTCCGGTTAAGGGACTTGCTCAGC
TATCTAGGTGAGGATGCCATCCACAAGGCCCTGGAAGAGGAGGAGGCCCGCCTGGAGAGG
GACCGGGGCCGGGAGGGGACCTGGTACCACGAAGGCCCCGCGGCGCTGAGGAGGGCGAGG
ATCGATATAGCCAGGTTCTCACTGCCGAGGGCCAAGCAAAGACTGGCCCAAGCTCGCTCA
GAGTTGGAACTGGCCGGCAGCGTGCGAGCGGCCGCCAAGCAGGACGCTCAGAGGAAGGCC
GCGGCTAACTCCATATATTGCAGTCAGATCGGTGACACGAGGCCTATAAGCTTCTGCAGG
TTCAGTTCGGACAGTAAAATGCTCATAACATCGAGCTGGTCGGGCGTGTGCCGCGTGTGG
TCGGTCCCTGGGTGTGTGGAGGTCCAGACGTTGTTGGGACACACGGGGAACGTCAGCTCT
GCGACCTTCCACCCGAAGGCGATGATGCCGCATCATCTGCAGCTCAAGGCGGAAAAGGGG
GAGAAGTCTGAGGATAAATCCGAGGATATGTCCGTGGATGTGTCGGACGCGTCGCATAAC
GTCGCGATGGCTTCCAGCGGATATGACGGCAGCGTGTTCCTGTGGAACTTTGTCAGCGAG
TCTCCGCTGGCGTCCTTGCCCGGCCACGGCCCGGCCCGCGTGTCCAGGGTGGAGTTCCAT
CCGTCAGGTCGCTACCTGGCCGCCACGGTCTTCGATCACTCGTGGAGGCTGTGGGATCTG
GAAACACAGACCGAGGTCCTTCACCAGGAAGGTCACGCCAAGCCGGTGTACAGCGTAGCC
TTCCAGTGCGACGGGTCCCTGGCGGTGACCGGTGGAATGGACTCTTTCGGGCGCGTTTGG
GACCTTAGGACGGGTCGCTGTGTGATGTTCCTCGAGGGTCACCTCGGCCCCGTGCTGGGG
GTGGACTGGGCCCCCGCGGGTCACCAGCTCGCCACGGCCGCCGCCGATCACCAGGCGAAG
ATCTGGGACCTGAGGCGCCGGTCGTCCATATACACCATCCCTGCGCACACGCACCTCATC
AGCGACATTCGTTATCAACGCACCCAGGGTCACTTCCTGTTGACCTCGTCCTATGACCAC
TCCGCCAAGCTGTGGTCCAACCCCGCCTGGCACCCGCTGAGGACACTCTCCGGACACGAC
AACAAGGTGATGAGCTGTGATATTTCACCCGACAATAAGTACATAGCGACCAGCTCCTAC
GACAGAACATTCAAGCTCTGGGCTCCGGACATGGCTTAA

Protein sequence:

MSDDEVVAVKKPKLYYGSLEEQEKARLAALAAAAREGVKESAKETGDIQISNEYMELEDE
ITKDKKALLEEFERRRKARQLNVSTDDDEVRRSLRQLGEPVCLFGEGPAERRVRLRDLLS
YLGEDAIHKALEEEEARLERDRGREGTWYHEGPAALRRARIDIARFSLPRAKQRLAQARS
ELELAGSVRAAAKQDAQRKAAANSIYCSQIGDTRPISFCRFSSDSKMLITSSWSGVCRVW
SVPGCVEVQTLLGHTGNVSSATFHPKAMMPHHLQLKAEKGEKSEDKSEDMSVDVSDASHN
VAMASSGYDGSVFLWNFVSESPLASLPGHGPARVSRVEFHPSGRYLAATVFDHSWRLWDL
ETQTEVLHQEGHAKPVYSVAFQCDGSLAVTGGMDSFGRVWDLRTGRCVMFLEGHLGPVLG
VDWAPAGHQLATAAADHQAKIWDLRRRSSIYTIPAHTHLISDIRYQRTQGHFLLTSSYDH
SAKLWSNPAWHPLRTLSGHDNKVMSCDISPDNKYIATSSYDRTFKLWAPDMA