MonarchBase - Protein-coding gene

DPGLEAN09541 in OGS1.0

New model in OGS2.0	DPOGS201947
Genomic Position	scaffold444:- 61705-69336
	See gene structure
CDS Length	3279
Paired RNAseq reads	219
Single RNAseq reads	595
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA006580 (0.0)
Best Drosophila hit	CG31156 (2e-117)
Best Human hit	S1 RNA-binding domain-containing protein 1 (6e-108)
Best NR hit (blastp)	PREDICTED: similar to S1 RNA binding domain protein, putative [Tribolium castaneum] (7e-139)
Best NR hit (blastx)	PREDICTED: similar to S1 RNA binding domain protein, putative [Tribolium castaneum] (1e-133)
GeneOntology terms	GO:0006139 nucleobase, nucleoside, nucleotide and nucleic acid metabolic process GO:0016788 hydrolase activity, acting on ester bonds GO:0003723 RNA binding
InterPro families	IPR006641 YqgF/RNase H-like domain IPR022967 RNA-binding domain, S1 IPR023319 Tex-like protein, HTH domain IPR023323 Tex-like domain IPR023097 Tex RuvX-like domain IPR012340 Nucleic acid-binding, OB-fold IPR003029 Ribosomal protein S1, RNA-binding domain IPR018974 Tex-like protein, N-terminal IPR019410 Nicotinamide N-methyltransferase, putative IPR016027 Nucleic acid-binding, OB-fold-like
Orthology group	MCL17041

Nucleotide sequence:

ATGGATGTATTAAATAGTAACAGTAATAATACGGATAAAGTTGATGTCATAGTTCGCAAT
CTAAAGTTATCATTCTTCAAGGGTTCACAGTATAATTTTAAAGACGGTGATGTTAAACAA
ATAACTTGGGACCAACAAAATAAATTTCTTAATCAAACAATTTATTCATCACATTTTAAG
AAATATCCATGTAACCAAGATTTTTGTAGGCTTTTTTTCAAAAACTTAATAACCCAAATT
GAAAAATATCATGAAGTACATGATGGCATGTATGAATTCTTATGTTCCTCAATGAAAGAG
AACAAGCATAACACATTTTCATACCAGCACTATTACATAAAAAATGATCATAATATCATA
ACTATTAAACAAACAAGAAATATGGTCTTAAATGGTACAACGGGGTTAAAAACATGGGAG
GCTGCCTTCATGCTGGCTGACTGGGCTCTATTTAATAAACAAATGTTTTTTAAAAAACAT
GTCCTTGAATTGGGTGCTGGTGTTGGTTTCACCGGTATAACAATAGCTAAGTATTGTGCC
ATAGAATCAATGACTATGTCTGATCACCATCCGGAAGTTCTTCAAGTTATATGTGATAAC
ATAGAAATTAACTTTCAATCAGCAAAAAAATGTACAACATCTCATTCTACTGTGTATGAA
ATAAATGATAAGACTATAGGTGCAATAATGCTTGATTGGAACGAGCCGGAAGAGGAAAAA
GATTTAACACCAGATATTATAATTGGAGCTGACATTATTTTTGATCCTTCAATATTAAAA
CCACTTATTAACATACTTAATTCATTTTATCAGAAAAATAATGAAGTTGAAATATACATT
CTCAGCGCTATTAGAAATATAGACACTTTTAATGGTTTTCTAGAAGAATTAAGAAATCTC
AATATGGAAAAAGTTACTAGAAAACGAAAACTAGAAGATTCTAAAGATGTAACAAAACCA
GTACAGAATTATAAGAAAACTAAAGTCTCTTCTACGGCTAAAAAAGCTGCAGTAATAAAA
GTAAAGAGAACTGGTCAAAAAGAAGTCAAAGATGATGGATCTGAATCTATTGAAACATCT
GAATGTAAAGAAAATATTATGCAAAGTGACCAGTATGATGTTATATTTGACCAAGCTAAA
ATGTTATCATGTTCTGAAAAAATATCTGTAAGTGTAGCTCAAAACTTTATTAATCTATTA
TCAGAAGGATGTACATTACCATTTATTGCAAGGTATAGGAAAGATGCCGTTGATCACCTT
ATGCCTGACAGACTTCAAGAACTCTATGAAAGCTATCAACATATAATACAACTTAAAAAA
AAGGTTAAATCTGTGTTAGAAACTCTAAAGAAATCAAATAAATTGACCCCAGAGATTGAA
CAAAGCCTTTTAAGTGCGAGGAATTTATCAGAAGTTGATTTGGTGTATGGTCCTTTAAAA
TCACATTCTCAATCATTAGCTGAAAGAGCCAGAAGTTTGGGTCTTGAACCTCATGCATTG
AACGCTCTTAATGGTGATTATGTCGAAATCAAATCTCTTTGCGATGGAAGTGAAGAGTTG
GCTAATTTTGAAAAAGTTGAAGCCCATGTGACTCATATTGTAGCCGATATAATATATAAA
GATACAAGAGTGATTGAACAAATGAGGAATTTGAAAGAAGAAACAAGGTTTACATTACAA
AGCAGTAGAGTGAAATCCACAAAGACAAAACAGGAGACGGTTATGAAATATGACACCAAA
TCTGATCCCCAGACTTATAAATTGTATTTCGACTGGAAGTGTCCTATTCAATTTGTAAAA
TGCTATCAGACATTGGCTGTGAATAGGGGGGAAGATGAAAAGATACTTTCTGTGAAAGTT
ATTATTCCTGATTGGTTCTACAATAAACTTGAACGGTTCTGTCTCACTTTATGGAAAAGC
AATTACTGGGTTCATAAAGGTCTCGGTGATGCTTACAATCGTCTGATAAAACCCTGGCTC
TCAAGGAAAGTCAGATCAGATTTGACAAGTTTGGCCGAAAAGGAAGCTGTTAAGACATTT
AGCACAAATTTAGAGAAATATTTATTGACTGAACCCATAAAGAATAAAACTATAGCTGGA
TTGGACCCTGGTTTCAAAGCAGGATGCAAGGTTGGTATAATAGATGCTACTGGAACTATG
TTGGAAGCATGCAACATATACCCAAATTTTAATTGCAACAATAATGATCCAGCGGCCAGA
CAACTAAGTGGTCTCTTATCTAAACATAGTGTAGATCTCATTGGTCTTGGTAATGGAACA
GCGTGTAGAGAAACTGAATCCTGGTTAAAGAGACACAAAATATCAGAACACATTCCTGTC
ATCATAGTTCCGGAGCAAGGCGCTTCTATATATTCAATTAGTAAGGAAGCTCAGAAAGAA
CATCCAAATATGGATCCAAATTTGATATCGGCTTTGTCATTAGCTAGAAGAGTGTTGGAT
CCGTTAGGGGAATTGATAAAGGTGGAACCGAAGAATTTAGGTGTTGGTTTATACCAACAT
GATATTCCACCTAAATTGTTGGAATCAGCCTTAGATATGACGGTGGAGAAAGTTGTGAGT
TTGGTTGGAGTTGATATCAATACTGCATCACAGGCCATGTTGAGGCGTATTGCTGGTTTA
AATGACGGCCGTGCGAAAAAAATAATAGCGTATAGACAAGAAAATGAAAGGTTTAAAACT
CGTGCTGAGTTATTAAAAGTTCCTGGTATAGGAAAAGTTACGTACCAACAATGTGCTGGG
TTTTTGAAAGTTTTGGGAGGTCTAGAGCCGTTGGACACGACTATTATACATCCTGAGAGC
TATTCCGTTGCTAAAACATTTGCAAAAAAAATCGGCGTAAACGTCAAAGACTTAACCGAC
GCCCGATTTCCTGAAGATGTAGAAAGGAAATCCAGAAGTATAGATATATCGGCTATGAGT
AAAGAACTTGACACCGATATAAGTAATTTAGAGTTGATTATAAATGCGTTCAAACTGAAG
GCCTATGAAGACAATGTGATTACGTTCTGTAGACCGGTGTACTCTATGGTAGTTCAAGCA
AGCGATCAATTGGAGAAAGGAATGTCTTTGACAGGTGTAGTCCGCAATGTGGTGCCGTTC
GGTTGTTTCGTGGATTGCGGTGTTGGTGACAACGGACTCATACACACCAGCAACATGGCG
AACGCTAACCTCAAGCTGGGAGACAGGGTCGCCGTTACGGTCATATCAACACCGAAACCA
AAGAAAATACAACTCAAACTAGACAGAATATTGGACTAG

Protein sequence:

MDVLNSNSNNTDKVDVIVRNLKLSFFKGSQYNFKDGDVKQITWDQQNKFLNQTIYSSHFK
KYPCNQDFCRLFFKNLITQIEKYHEVHDGMYEFLCSSMKENKHNTFSYQHYYIKNDHNII
TIKQTRNMVLNGTTGLKTWEAAFMLADWALFNKQMFFKKHVLELGAGVGFTGITIAKYCA
IESMTMSDHHPEVLQVICDNIEINFQSAKKCTTSHSTVYEINDKTIGAIMLDWNEPEEEK
DLTPDIIIGADIIFDPSILKPLINILNSFYQKNNEVEIYILSAIRNIDTFNGFLEELRNL
NMEKVTRKRKLEDSKDVTKPVQNYKKTKVSSTAKKAAVIKVKRTGQKEVKDDGSESIETS
ECKENIMQSDQYDVIFDQAKMLSCSEKISVSVAQNFINLLSEGCTLPFIARYRKDAVDHL
MPDRLQELYESYQHIIQLKKKVKSVLETLKKSNKLTPEIEQSLLSARNLSEVDLVYGPLK
SHSQSLAERARSLGLEPHALNALNGDYVEIKSLCDGSEELANFEKVEAHVTHIVADIIYK
DTRVIEQMRNLKEETRFTLQSSRVKSTKTKQETVMKYDTKSDPQTYKLYFDWKCPIQFVK
CYQTLAVNRGEDEKILSVKVIIPDWFYNKLERFCLTLWKSNYWVHKGLGDAYNRLIKPWL
SRKVRSDLTSLAEKEAVKTFSTNLEKYLLTEPIKNKTIAGLDPGFKAGCKVGIIDATGTM
LEACNIYPNFNCNNNDPAARQLSGLLSKHSVDLIGLGNGTACRETESWLKRHKISEHIPV
IIVPEQGASIYSISKEAQKEHPNMDPNLISALSLARRVLDPLGELIKVEPKNLGVGLYQH
DIPPKLLESALDMTVEKVVSLVGVDINTASQAMLRRIAGLNDGRAKKIIAYRQENERFKT
RAELLKVPGIGKVTYQQCAGFLKVLGGLEPLDTTIIHPESYSVAKTFAKKIGVNVKDLTD
ARFPEDVERKSRSIDISAMSKELDTDISNLELIINAFKLKAYEDNVITFCRPVYSMVVQA
SDQLEKGMSLTGVVRNVVPFGCFVDCGVGDNGLIHTSNMANANLKLGDRVAVTVISTPKP
KKIQLKLDRILD