MonarchBase - Protein-coding gene

DPGLEAN13996 in OGS1.0

New model in OGS2.0	DPOGS210562
Genomic Position	scaffold733:+ 41870-44565
	See gene structure
CDS Length	1539
Paired RNAseq reads	1295
Single RNAseq reads	3282
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA013454 (0.0)
Best Drosophila hit	CG5451 (0.0)
Best Human hit	WD40 repeat-containing protein SMU1 (0.0)
Best NR hit (blastp)	PREDICTED: similar to CG5451-PA isoform 1 [Apis mellifera] (0.0)
Best NR hit (blastx)	PREDICTED: similar to CG5451-PA isoform 1 [Apis mellifera] (0.0)
GeneOntology terms	GO:0000398 nuclear mRNA splicing, via spliceosome GO:0071013 catalytic step 2 spliceosome GO:0071011 precatalytic spliceosome
InterPro families	IPR019782 WD40 repeat 2 IPR017986 WD40-repeat-containing domain IPR006594 LisH dimerisation motif IPR006595 CTLH, C-terminal LisH motif IPR019775 WD40 repeat, conserved site IPR020472 G-protein beta WD-40 repeat IPR011046 WD40 repeat-like-containing domain IPR001680 WD40 repeat IPR015943 WD40/YVTN repeat-like-containing domain IPR019781 WD40 repeat, subgroup
Orthology group	MCL14904

Nucleotide sequence:

ATGTCTATCGAAATTGAATCTGCAGATGTTATCCGTCTGATACAACAATACTTGAAGGAG
TCTAACCTCACAAAAACTTTGCAAACGTTACAGGAGGAGACAGGGGTTTCATTGAACACA
GTTGATAGTGTTGATGGATTTTGTGCCGACATAAATAATGGTCACTGGGATACCGTGTTA
AAAGCAACAGCATCATTAAAGCTGCCTGATAAGAAACTTATGGATTTATATGAACAAGTG
GTCTTGGAACTCATTGAGTTACGTGAGCTGGGTGCCGCTCGAACATTGTTGCGCCAAACC
CAGCCCTGCTTGCTCATGAAGCAACAGGAGACGGATAGATACATGCATCTTGAAAATATG
TTGGCTCGATCATATTTCGATCCTCGGGAAGCATACGGAGCTGGTGGTGGCAAGGAGTGG
CGACGCTCGGCGCTGGCCGCAGCACTGGCGGGTGAGGTCTCCGTGGTTCCATCTTCACGT
CTCCTAGCGCTGCTGGGTCAGGCGCTGAAGTGGCAGCAGCATCAGGGTCTACTGCCGCCA
GGAACCACCATTGATTTGTTCAGAGGCAAAGCTGCTATTAGGGACGAAGAAGATGACCAA
TACCCGACACAAGTGTCAAAGATTATAAAATTTGGCCAAAAATCTCATGTTGAGTGTGCA
AAGTTTTCCCCCGACGGCCAGTACTTGGTGACGGGGTCCGTGGACGGGCTGGTGGAAGTG
TGGAACTTCACGACGGGCAAGATCCGCAAGGATCTGCGGTACCAGGCGCTCGAAGAGTAC
ATGAGCATGGAGGAAGCCGTGCTCAGCCTGGCCTTCGCGAGAGACTCCGACACGCTGGCG
GCCGGAGCCAACGATGGCCGCGTCAAGGTGTGGAGGGTCGCCAGCGGACAGGTGCAGCGC
AAGTTGGAGCGAGCCCACGCCAAGGGAGTCACGTGTCTGCAGTTCGCCAGAGACAATACT
CAGATACTGTCCGCCTCCTTCGACCGAACCATCAGGATCCACGGATTGAAGTCGGGAAAG
ATTTTAAAAGAATTTCGAGGTCATACGTCGTTCGTGAACGAGGCTGTGTTCACCCCGGAT
GGACACAGCGTGCTAAGCGCTTCCTCCGACGGCACGGTCAAGGTGTGGTCGGTGCGCTCC
GGGGAGTGTACGGCGACGTTGAAGCCGCTGGGGTCTGGGGAGCCGCCCGTCAACTCGCTG
CTGCTGATGCCCAAGAACCCGGATCACTTCGTGGTGTGTAACAGGACCAACACCGTGGTC
ATCATGAACATGCAGGGACAGATCGTGCGCTCCTTCACCAGCGGCCGGCGCGAGGAGGAA
GGCGGTGCCCTGGTGTGCGCGGCGCTCGGAGCGCGTGGCCGCCTCGTGTACTGCGCCGCC
GAGGACCTCGTGCTGTACGCCTTCTGCGCCGCCAGCGGCAAACTCGAGAGGACCATCAAT
ATCCACGAGAAGGCGGTCATCGGTATGACGCACCACCCTCACCAGAACCTGCTGGCCACC
TACAGCGAGGACGGACTCCTGAAGTTGTGGAAGCCGTGA

Protein sequence:

MSIEIESADVIRLIQQYLKESNLTKTLQTLQEETGVSLNTVDSVDGFCADINNGHWDTVL
KATASLKLPDKKLMDLYEQVVLELIELRELGAARTLLRQTQPCLLMKQQETDRYMHLENM
LARSYFDPREAYGAGGGKEWRRSALAAALAGEVSVVPSSRLLALLGQALKWQQHQGLLPP
GTTIDLFRGKAAIRDEEDDQYPTQVSKIIKFGQKSHVECAKFSPDGQYLVTGSVDGLVEV
WNFTTGKIRKDLRYQALEEYMSMEEAVLSLAFARDSDTLAAGANDGRVKVWRVASGQVQR
KLERAHAKGVTCLQFARDNTQILSASFDRTIRIHGLKSGKILKEFRGHTSFVNEAVFTPD
GHSVLSASSDGTVKVWSVRSGECTATLKPLGSGEPPVNSLLLMPKNPDHFVVCNRTNTVV
IMNMQGQIVRSFTSGRREEEGGALVCAALGARGRLVYCAAEDLVLYAFCAASGKLERTIN
IHEKAVIGMTHHPHQNLLATYSEDGLLKLWKP