MonarchBase - Protein-coding gene

DPGLEAN06508 in OGS1.0

New model in OGS2.0	DPOGS207331
Genomic Position	scaffold2322:- 10788-16309
	See gene structure
CDS Length	2064
Paired RNAseq reads	1275
Single RNAseq reads	3543
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA010107 (4e-129)
Best Drosophila hit	another transcription unit (2e-78)
Best Human hit	RNA polymerase-associated protein LEO1 (1e-74)
Best NR hit (blastp)	hypothetical protein TcasGA2_TC013564 [Tribolium castaneum] (3e-118)
Best NR hit (blastx)	AGAP003242-PA [Anopheles gambiae str. PEST] (1e-87)
GeneOntology terms	GO:0003674 molecular_function GO:0005575 cellular_component GO:0008150 biological_process
InterPro families	IPR007149 Leo1-like protein
Orthology group	MCL13867

Nucleotide sequence:

ATGGCTCCAAATGGAAGAAGAGGCTCAGTGGACACTGATTCCGGTTCCGATTCCGACAGC
GGTTCCAGTGCAAGTCACAGCAAAAGTGCTAGTCCGGCACCATCTGGTAAAGAAGGCAGT
CAGTCTCGATCGGTATCCAGAAGTCCCGCAAAATCTGGAAGTGAATCTCCAAAGTCCAAT
CGCTCTGCTAGATCACGGAAATCATCGAACGCATCAAACGCGTCCCGTTCAAAATCAAAC
TCCCCAGCTGGGTCTAACAGGTCAGGATCCGCGCAGAGCAACAAATCCGCTTCGTCAAGT
CCAAAATCAAGGGCATCCAGAAGTCCCAGGGCGTCAAAATCCAGATCCAGATCCCGTAGT
GGGTCAGGCAGTGCTAGATCTAGATCCGGTAGCGCTCGTTCCAGGTCAGGTAGTCCGAAA
TCCGGTGCACAGAGCCCAAAGTCCAGATCGCAGAGTCCAAAGTCACGATCGCAAAGCCCT
AAGTCTCAGGGTGCTAAAAGTGGGTCTCGTTCGCGTAGTGGAAGTCCTAAAAGCAGGAAG
TCGAGATCTAGGTCAGGAAGTGCGTCATCAAGATCGAAGAGTCCAGAAGCCAGACCGGAT
GTAGCCGACAGCAGATCCAATTCACCAAATCTCATGATTGACGACCAAGCCAAGGAAAAA
TCAGGAAGCAGATCTAGATCGCACTCAAAATCCAGATCCAGAAGTAAATCTAAGTCAAGA
TCCAGAAGCAAATCGAAGTCGAAGTCAAAAAGCCGTTCGCGATCACGTTCGAAGAGTTCT
AACGCTTCAGATGTCGGCGGTAAGAAGAAAAGCTCCGTGCTATCTGACTCGGAGAGTGAT
GCTGGGCAGAAAGGTCCCAAACGTAAGAAAGATTCAGACAGCGGCTCCGACACGAGCAAC
AAACCTAAGAAGAAGACAAAGAAACTTGACTCTGATGATGACAATCAGGAGGCGACCGTG
ACAGCTGATGCGTTATTCGGCGACGCGTCCGACATCAGTACTGACAATGAGGGTGAGAAG
GAAAGGTCGAGGTCGAGGTCCAAGTCGAGGTCGAGGTCACGCAGCCGCAGCAGGTCCGGT
GACGAGAGGCGCTCAGACGACGCCAAGGGGAGTGGAGACGAGGAAAATAGGGAGAAACCC
GAAGAGGAAGAGGAGATTGAGATCCCAGAAACTCGTATAGATGTGGACATGCCTAAAATA
TGGACGGAACTTGGCAAGGAATTGCATTTCGTGAAGCTTCCCAATTTTTTGTCAGTGGAA
ACTAGGCCTTACGATCCAAATACATATGAAGATGAGATTGATGAAGAAGAAACGCTCGAT
GAAGAAGGTCGTGCGAGGTTGAAGCTCAAAGTGGAGAATACGTATGCGACCGCCTGCCAC
AAGCTTAAAGAAGGTAACGCTGTGAAGGAATCCAACGCGCGGATGGTGAAGTGGTCCGAC
GGGAGCATGTCCTTACACCTCGGCTCCGAGATCTTTGATGTTTACAAGCAACCTCTACAC
GGCGACCACAACCATCTGTTCGTCCGTCAAGGCACGGGTCTCCAGGGCCAGGCGGTGTTC
CGCACCAAGTTGTCGTTCAGACCTCACTCCACGGACTCGTTCACACATCGCAAGATGACG
CTGTCTGTGGCGGACAGGTCCACGAAGACGTCCGCTATAAAAATACTGTCGCAAGTAGGC
AGCGACCCTGACGCGGACAGGAAATATCAGCTGAAGAAAGAGGAGATGGAGCTGCGTGCT
GCGATGAGGTCCCGGGTGTCCAGTCGACCCAAGAGGAGGGCGGGCGGGGGCGGGGGGGCC
CGCGCTCACAGGCACGACGACTCAGAGGACGAGGGCGGGGTGTCGCTGGCGGCCATCAAG
AACAAGTACAAGGCTGGACAGAAAGCGAGCGCCGGGGCCGCGATCTATTCGTCGGAGTCT
GACGGCTCGGATGTGGAGACCCGTCGCGCTAGGAGGCTGGACAGGGCGAAGGCTTTGAAG
GACTCCGACGACGAAGCGAGTCCCGGGAACAACACGCCGCAGCAGAGTCAAAGCGGCTCG
GGCTCCGGCAGCGGCAGCGACTGA

Protein sequence:

MAPNGRRGSVDTDSGSDSDSGSSASHSKSASPAPSGKEGSQSRSVSRSPAKSGSESPKSN
RSARSRKSSNASNASRSKSNSPAGSNRSGSAQSNKSASSSPKSRASRSPRASKSRSRSRS
GSGSARSRSGSARSRSGSPKSGAQSPKSRSQSPKSRSQSPKSQGAKSGSRSRSGSPKSRK
SRSRSGSASSRSKSPEARPDVADSRSNSPNLMIDDQAKEKSGSRSRSHSKSRSRSKSKSR
SRSKSKSKSKSRSRSRSKSSNASDVGGKKKSSVLSDSESDAGQKGPKRKKDSDSGSDTSN
KPKKKTKKLDSDDDNQEATVTADALFGDASDISTDNEGEKERSRSRSKSRSRSRSRSRSG
DERRSDDAKGSGDEENREKPEEEEEIEIPETRIDVDMPKIWTELGKELHFVKLPNFLSVE
TRPYDPNTYEDEIDEEETLDEEGRARLKLKVENTYATACHKLKEGNAVKESNARMVKWSD
GSMSLHLGSEIFDVYKQPLHGDHNHLFVRQGTGLQGQAVFRTKLSFRPHSTDSFTHRKMT
LSVADRSTKTSAIKILSQVGSDPDADRKYQLKKEEMELRAAMRSRVSSRPKRRAGGGGGA
RAHRHDDSEDEGGVSLAAIKNKYKAGQKASAGAAIYSSESDGSDVETRRARRLDRAKALK
DSDDEASPGNNTPQQSQSGSGSGSGSD