MonarchBase - Protein-coding gene

DPGLEAN21879 in OGS1.0

New model in OGS2.0	DPOGS208361
Genomic Position	scaffold657:+ 66100-70283
	See gene structure
CDS Length	2052
Paired RNAseq reads	2471
Single RNAseq reads	6103
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA009570 (5e-101)
Best Drosophila hit	CG9915 (5e-82)
Best Human hit	protein IWS1 homolog (2e-58)
Best NR hit (blastp)	conserved hypothetical protein [Pediculus humanus corporis] (1e-116)
Best NR hit (blastx)	conserved hypothetical protein [Culex quinquefasciatus] (2e-86)
GeneOntology terms	GO:0005634 nucleus
InterPro families	IPR017923 Transcription factor IIS, N-terminal
Orthology group	MCL11772

Nucleotide sequence:

ATGGATGTCGATACGGATGGGAGGAGATCACGGTCTCGCAGTAAATCTGTGGAGTCCGAG
TCCAAGATGTCTCGCGATGGTTCAGTTCGCTCCAAGTCAGCGTCTCGTTCTCGTTCTCGC
TCCAAGTCGTCTTCCCGCTCTCGCTCCAGATCCCACTCGTCCAGGTCAAGGTCGGGCTCC
AGATCTCCCAGCGGCTCGCGGAAGTCCCGGTCTCGCAGTAGTTCCCCAAAATCTCCCCGC
TCCAGAAGCGGATCGGCTAATTCTAATCGATCTCTGAGCGGATCGAATAAATCCAGATCT
AGGAGTGGGTCTCCTAGGAAATCCAAATCGAGGAGTCCTTCGGTCGCGTCCAAGGCTGAA
TCTAGATCGAGGAGTGGATCGGCACACTCGCGCTCCCGGTCTAGGAGCGGCTCTCCCGCT
AAGTCTCGTTCTCGTACCGGTTCCCCTGCAAAGTCTCGGTCGCGCAGTGTGTCGCGTGCC
AAGTCGCGATCCCGAAGTCGGTCTGGGAGCGGATCTCCGAGAAAATCGAGATTCAGGAGC
GGGACACCCAGGAATTCTAAATCCAAAAGTAGATCGAGGTCAAGGAGTTTATCGAAACGT
TCTCGATCGAACAGCGTGTCTCCAGAAAAAGCCAGATCGAGAAGCGGATCCGTCAAATCA
GACACAGCTCGAAAATCAAGATCTAAGAGTCCTTCACCGAGTACAGAGTCCAAGAAGAAA
TCGAGATCTCGCAGCCTTTCACCTCAGAAGGCATCCAGTAAGTCCCCAGACAGTAAACAA
AGGAATGAATCTAAACAAATGGAAACCGAGGAAAAGGAGCTTGACAGGCCGGGGTCGGCC
GCTGATGTGAGAGCCAGTCGGTCTCGCTCCAGGTCAGTCGGTCGTAAGTCTGGGTCTCGT
TCTCGTTCCCGGTCCGGTTCCCGGTCTCGCTCTCACTCCAGATCAAAGTCTCGATCACGC
TCACGATCCGGCTCAGCGAAGTCAAGGTCCCGTTCTCGTTCTGGGTCCCGCTCGGGGTCC
GGCTCACCGTCTCGTAAAGAACACAAAAAACGACGCACGGTCCGCCTGGCCTCAGACGAC
GAGAACGAGGGCGTGGCCGAGGGGAGGGAGGAAGAAGAGGTCGGAGAGGGAGTCGTTGAG
GAGGAGGAGGGGGAGGACGAGGAGGGAGGGGGAGGTGGCAGAGAACAACACGGACTGTCC
GACTTCGAGGCTATGATGCAGAGGAAGAGAGAGGAGCGGCGAGGAAGACGCAGGAGGAGA
GACATCGAGATGATCAACGACAACGACGACCTCATAGCGGCGCTCCTCGCGGACATGCGG
CGGGCGGCGGACGAGGACCGCGAGCTGAACCGAAGGAATCAGCCCGCCGTGAGGAAGGTG
TCCATGCTGAAGAGAGCCGTGTCGCAGCTCATCAAGAGAGACCTGCAGCTGGCTTTCCTG
GAGGCCAACGTGCTCAACGTGCTGTGCGACTGGCTGGCGCCGATGCCCAATAGAGCGCTG
CCCTGTCTGCTCATCAGGGAGAGCGTGCTGAAGCTGCTCATGGATTTCCCAGCCATCGAC
AAGTCTCTTCTCAAGCAGTCGGGGATCGGCAAAGCGGTGATGTACCTCTACAAGCATCCC
AAGGAAACGAAAGCTAACAAAGAGCGTGCCGGCCGCCTCATATCCGAGTGGGCCCGACCG
ATATTCAACTTGTCCACAGACTTCAGAGCTATGACACGAGAGGAGCGACAGGCGCGAGAC
GAGGCCATGTCGGGGAATAGGAGGAGGGAGGAAGCCCCGCCCAGCAAGAGAACCCGCACA
GAGGAACCGGAGAGAGCTGTCCGTCCCGGTGAGCCGGGCTGGGTGTCCCGGGCGAGGGTT
CCCGCGCCCTCCAACAAGGACTACGTGGTGAGGCCCAAGTCTACCTGCGACCTGGACATG
TCCCGGGTCAGCAAGAAGAAGATGACGCGCTACGAGAAGCAGATGAAGAAGTTCCTCGAC
CAGAAGAGAATGAAGGGAGGGACCAAGAGAGCCGTCGAGATCTCCATAGAGGGGAGGAAG
ATGGCGCTGTAG

Protein sequence:

MDVDTDGRRSRSRSKSVESESKMSRDGSVRSKSASRSRSRSKSSSRSRSRSHSSRSRSGS
RSPSGSRKSRSRSSSPKSPRSRSGSANSNRSLSGSNKSRSRSGSPRKSKSRSPSVASKAE
SRSRSGSAHSRSRSRSGSPAKSRSRTGSPAKSRSRSVSRAKSRSRSRSGSGSPRKSRFRS
GTPRNSKSKSRSRSRSLSKRSRSNSVSPEKARSRSGSVKSDTARKSRSKSPSPSTESKKK
SRSRSLSPQKASSKSPDSKQRNESKQMETEEKELDRPGSAADVRASRSRSRSVGRKSGSR
SRSRSGSRSRSHSRSKSRSRSRSGSAKSRSRSRSGSRSGSGSPSRKEHKKRRTVRLASDD
ENEGVAEGREEEEVGEGVVEEEEGEDEEGGGGGREQHGLSDFEAMMQRKREERRGRRRRR
DIEMINDNDDLIAALLADMRRAADEDRELNRRNQPAVRKVSMLKRAVSQLIKRDLQLAFL
EANVLNVLCDWLAPMPNRALPCLLIRESVLKLLMDFPAIDKSLLKQSGIGKAVMYLYKHP
KETKANKERAGRLISEWARPIFNLSTDFRAMTREERQARDEAMSGNRRREEAPPSKRTRT
EEPERAVRPGEPGWVSRARVPAPSNKDYVVRPKSTCDLDMSRVSKKKMTRYEKQMKKFLD
QKRMKGGTKRAVEISIEGRKMAL