MonarchBase - Protein-coding gene

DPGLEAN19887 in OGS1.0

New model in OGS2.0	DPOGS213855
Genomic Position	scaffold764:- 28718-77884
	See gene structure
CDS Length	3585
Paired RNAseq reads	2265
Single RNAseq reads	5639
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA009663 (5e-14)
Best Drosophila hit	enhancer of polycomb, isoform B (2e-101)
Best Human hit	enhancer of polycomb homolog 1 (5e-87)
Best NR hit (blastp)	hypothetical protein TcasGA2_TC008956 [Tribolium castaneum] (5e-131)
Best NR hit (blastx)	PREDICTED: similar to enhancer of polycomb [Nasonia vitripennis] (4e-101)
GeneOntology terms	GO:0006325 chromatin organization GO:0005701 polytene chromosome chromocenter GO:0005700 polytene chromosome GO:0000785 chromatin GO:0005725 intercalary heterochromatin
InterPro families	IPR019542 Enhancer of polycomb-like, N-terminal
Orthology group	MCL11725

Nucleotide sequence:

ATGTCGAAGCTCTCGTTTAGGGCGAGGGCCCTGGATGCGTCTAAACCTATGCCCATATAT
CTCGCCGAGGAGCTCCCGGATTTACCGGACTACTCGGCGATTAATCGTGCTGTACCTCAA
ATGCCCTCTGGTATGGAGAAAGAGGAGGAAAGTGAGCATCACCTCCAGAGGGCTATATCA
GGCACGGGCCTCATCATACCGACGCCGGAGGTATGCCAGGTGTCGGACGTGGAGTTTTAC
GAGGCCTGCTACCCGCCGGACTACAAGATGCCCAAACAGCATATACACATGCAGCCGCTA
TGGGAGGAACAAGAGGCGCCGGAGTATGACATCGACACAGAGGACGAGAGGTGGCTGAAA
CAACAGAGGCATCCAGAGTTGACAGACTTAAAGTTCGAGCAAATGATGGACAAGTTGGAG
AAGAGCTCCGGTCAGACGGTTGTGACCCTCAACGAGGCCAAGCTTCTGCTGGAGAGGCAC
GACGACCTGGTCATAGCCGTGTACGACTACTGGCTCAACAAGCGGCTCAGCACTCAACAT
CCGCTGGTGCTATCTGTGAAGACGGAAAACCGCCCCGGACAATCCACCAACAACCCCTAC
CTCGCGTTCAGAAGACGGACGGAGAAAATGCAGACCAGGAAAAACAGGAAAAACGACGAG
AGTTCATACGAGAAAATGCTGAAGCTACGCCGTGATCTGGCGCGAGCTCTGTCTCTGTTG
GAGTTGGTGGCGAGGAGGGAGAGAGCCAAGCGGGAGCTGGTGCGGCTCACGGCGCTGCTG
GCTGAGAGGAGGTACGGCGCTGGGGACTACACGCACCCCGCCGCTACCGACAACACACAC
AGGCCTACATACCAAGTACCGATCACAGCGACCAGCTTCAGACGGGAGTACGCCGCGCCC
TACCCGCCACCCGCGCCGCTAGACGCCAGACAGCGTGAGAAACGTCCCTACAAGAGACGG
AAGCATCGCCACTACGTACCCGCGGTTCCGCACAGAGATTCCGGCGTCTGTACGTCCTCG
GAGGAGGAGGTCGCCCCGCTCGACGACGGACCCTTCGCCTTCAGGCGCAAGCCGGGGTGT
TTCTATGAGATGCCGACGGCCACCTTATACGGTGACCCTGTGGACCCCGACGATACAAGC
AAGGACGGCCTATTCCAACACGAACTGGACGAGAAGACCAGGTTCACGCTGACATCTCTG
CGTCTGCCGTACTCGCATTGCGTGGGCTTCGCTCGCCGGAGACGAGGTCGGGGCGGCCGC
GTGATGCTGGACCGGATACGGACTCCCCTCGACGACCTGTGGAGGAGAGAGTGGAAGTGT
GTGTGCCTCCCGCACGAGGAGAGGGAGCGGAGGGCCGAGGAGGTCGAACTGGAGACTAAG
CCGCACAGAAGCCCGAAGGAAATGAAGACGGACTACCACGCGGGCGGGAAGTACCCGTGG
CGACACGCGTTCAGGCGACATCTGGCCGATAACCCCCACCTGTGGACCGAACCTGTCGGC
GATGACGTCTTAGACGTCAAGGCCGACGTCCACGTGAAGATCAACGGCGAAGACGTCAAA
ATAGACGTCGACGAGGTCAAGATAGAGCCGATGGACGTCGACAGTGAAAGAGTTTTACCC
GAAACGGACATTAGTGATAGTGTTGAGGACGTTAGTGAAAAGAGAACTATAGACAGACTA
GTTACTGACAATCTCAATAGGGTTATAAGGAAGAGGACCTGGAGCGGCTGCACCGACAGC
AGCTACGACTCAGATGACAGTCTGCAGCCTGTAGAGAAGGAGTTCGAGAAATTCATCAAC
AAAGTCAATAGGAAATGGTTACATTTCCGACCGAAAACCCCACCGCCGTCACCTCCATAC
GTGGATAACCCCGCGGAGGATCAACTTCCGCTGGCCGTGGACACGCCGCTCGCCGTGGAA
CTCACCTCCAAACCCTCGGTCGGCGCCCTCGACACGTTCACCACCTCCGAGTTCACGCTC
TCCGACCTCTACGACATCAGCGTGCCGGAAGCCAACGGCCCGTCGGAGATCAGCGACGAC
CTCCCCGAGAACTTCACGGGCTTCACGGACGATCAGGTCGAGAGCATCCTCTCGGACACG
GATCTGAAGGCGCTCGAAGACAAGAAGTCGACGGACGACCTGCTGGAGGAGCTGGTGAGG
GATGTGGACACGGGGAAATCTTTTTTATGTCAAGGCCGGAGCCCTGGGACGCGGGCTGGC
TCTGGCCGCAACGAAGCGTTCGGCTGCAGCGTAGTGGACGTGCGATCGGAGCGGGAAGCC
GTATACGTGCCGGTGGAGACCCGGCCTCCACCCCCGGCGACTCCGCCCCCGCCGCCCAGG
AACGAAATCCCGGCGACCCTCAGGAAACCAGCGCCCCCGCCGCCCAGGCGACCGCCCAGC
GACCCAGACACCACGCAGATCGTCACGGTCGCCGTCTCCGACAGTCTCAAGGTGCGTCTG
GCTAGTCAAGGAGCGACGGCGGCCACCGCGGCCGGGACTGTGGTCGGCTTACTGCAGAAC
GGACCATTCGCCACTATGCTGCCAGTCGCAAGCGTCGCGAGCGTGGCGAGTGTAGCGAAC
GTCACGGCCGGAAGCGGGAAAATGACGAATGTCGCAAACGTGGCTAACGTGGCCAATGTA
GCTAATGTTGCTAACGTGGCTAGCGTCGCCAACGTGAACGTGTCAGTGGCGAACGCCAAT
CGTCGCGTCACGCCGTTCGTCCAGTTAGCTCCGGCCGCGTTAGGTCACAAACCTCTCCAG
CTGCACCACTCGCCGTCGGTAGTGGTCGGGCCGCCCGTGCACCACGTGACGCCGAGCAAG
CTGAAAGTGTTGCACGCACACCCACTGACCAACTCGCAACGAGCACAACTGTTCGCACAG
AACCGCTCCCTGGCCCAGCTGCCGGGCATGGTGTCCCTCGCCGCTCTAGGCGACGCCAAG
ATAAAACCTCACGGCTCAGTGGCGCAGTACTACGAGATAAAGGGCGGCCAGCTGGGCAAA
CCGCACCTGGTCAACGTGCTCCGACAACCGCCGCCCAAGACACAAGCAGCGAGGATCGAC
CTGAACGACGCCAAGAAACGACCGTTCATATTCGACGGCACGCTGAAAGGGAACATGGCC
GCCGCGAGTAGACCGCACCGGGTCAGCGTGAGCCTGGACGGGCGGCAGCTGGTGCGGGCG
GCGCTGCCCGCGGTGCGGCACCAGATACAGCTGAAGAACAGGACGCTGCAGGTGGCCGCG
CCCAGCGCCCGCTCCGCCGCCGAGCCCTCCACCAGCATCACGATAGCGCCCACCAAGACC
GCCACCATCGCCAGCTCGGTGGTCGCCAATCTTCTCCAGAAGAACGTCCAGCTGCCCAAG
GGTCAGAAGATCGCCATATCCGGCCCCGGCGGACAGGCGCTCGCGGCCAACGTCCAGGCC
ATCGCCTTCACCACGGCACAGCTCAAGGCGCGACAGAGCAGGATGATGCCGCAGACAAGA
CCGCCTCCTGTAGCCGAGATAGTGGAAACCTCCTCCGCACCTAGCGCGGCCCCCGACGAC
GAAGACGGCGTCCGGCGCACCGAGACTATGATGGAGGTCACGTGA

Protein sequence:

MSKLSFRARALDASKPMPIYLAEELPDLPDYSAINRAVPQMPSGMEKEEESEHHLQRAIS
GTGLIIPTPEVCQVSDVEFYEACYPPDYKMPKQHIHMQPLWEEQEAPEYDIDTEDERWLK
QQRHPELTDLKFEQMMDKLEKSSGQTVVTLNEAKLLLERHDDLVIAVYDYWLNKRLSTQH
PLVLSVKTENRPGQSTNNPYLAFRRRTEKMQTRKNRKNDESSYEKMLKLRRDLARALSLL
ELVARRERAKRELVRLTALLAERRYGAGDYTHPAATDNTHRPTYQVPITATSFRREYAAP
YPPPAPLDARQREKRPYKRRKHRHYVPAVPHRDSGVCTSSEEEVAPLDDGPFAFRRKPGC
FYEMPTATLYGDPVDPDDTSKDGLFQHELDEKTRFTLTSLRLPYSHCVGFARRRRGRGGR
VMLDRIRTPLDDLWRREWKCVCLPHEERERRAEEVELETKPHRSPKEMKTDYHAGGKYPW
RHAFRRHLADNPHLWTEPVGDDVLDVKADVHVKINGEDVKIDVDEVKIEPMDVDSERVLP
ETDISDSVEDVSEKRTIDRLVTDNLNRVIRKRTWSGCTDSSYDSDDSLQPVEKEFEKFIN
KVNRKWLHFRPKTPPPSPPYVDNPAEDQLPLAVDTPLAVELTSKPSVGALDTFTTSEFTL
SDLYDISVPEANGPSEISDDLPENFTGFTDDQVESILSDTDLKALEDKKSTDDLLEELVR
DVDTGKSFLCQGRSPGTRAGSGRNEAFGCSVVDVRSEREAVYVPVETRPPPPATPPPPPR
NEIPATLRKPAPPPPRRPPSDPDTTQIVTVAVSDSLKVRLASQGATAATAAGTVVGLLQN
GPFATMLPVASVASVASVANVTAGSGKMTNVANVANVANVANVANVASVANVNVSVANAN
RRVTPFVQLAPAALGHKPLQLHHSPSVVVGPPVHHVTPSKLKVLHAHPLTNSQRAQLFAQ
NRSLAQLPGMVSLAALGDAKIKPHGSVAQYYEIKGGQLGKPHLVNVLRQPPPKTQAARID
LNDAKKRPFIFDGTLKGNMAAASRPHRVSVSLDGRQLVRAALPAVRHQIQLKNRTLQVAA
PSARSAAEPSTSITIAPTKTATIASSVVANLLQKNVQLPKGQKIAISGPGGQALAANVQA
IAFTTAQLKARQSRMMPQTRPPPVAEIVETSSAPSAAPDDEDGVRRTETMMEVT