MonarchBase - Protein-coding gene

DPGLEAN03201 in OGS1.0

New model in OGS2.0	DPOGS206371
Genomic Position	scaffold597:- 65815-70235
	See gene structure
CDS Length	2397
Paired RNAseq reads	397
Single RNAseq reads	1201
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA005770 (0.0)
Best Drosophila hit	Scm-related gene containing four mbt domains, isoform A (1e-23)
Best Human hit	scm-like with four MBT domains protein 1 (2e-105)
Best NR hit (blastp)	hypothetical protein BRAFLDRAFT_226942 [Branchiostoma floridae] (2e-127)
Best NR hit (blastx)	hypothetical protein BRAFLDRAFT_226942 [Branchiostoma floridae] (5e-128)
GeneOntology terms	GO:0005634 nucleus GO:0045449 regulation of transcription
InterPro families	IPR010993 Sterile alpha motif homology IPR004092 Mbt repeat IPR021987 Protein of unknown function DUF3588 IPR013761 Sterile alpha motif-type
Orthology group	MCL17763

Nucleotide sequence:

ATGGAATTTGAATGGAATAATTATTTAGAAGATACAAAAACTATTGCTGTTCCCGAAGAA
TTATTTTATCACGTTGAAGCCAGCCTCAACAATGGTATCAAGCAGGGGATGTTACTCGAG
GTGTGTCACAAGAACAATCCTGATGTATACTGGTTGGCTGAGATCACAATGGTCTGCGGC
CACTTGCTTAGGATAAAATTCATTGGTGCCCAGACCGACTTTTGGTGTGATATATCCAGT
ACTAAAGTCCACCCTCTCGGCTGGTGTGGAAAATATGATGAATTGGTTGAGCCTCCCGAT
GAGATAAACGAAAGATGCGGAGAAACTATCATAGATATAATGAAAAAAGCCCTCCTTGTT
GGACAATCGGTTTCACTCGAGGCATTGAATAACAAAGGGATGTCTCCAATCGATCGAATC
AAAGTTGGGATGAAAGTGGAAATACAGAATATAATTGATCCATACAGATACTGGATTGCA
ACTGTGTGTGAAAACATTGGAGGTCGGCTCTTGTTGAGGTATGATGGAGCTGATGAAGAT
TTACCACAGTTTTGGATGTTCTTCTGCAACACCAGACTCAGCAGCTTTGGATTTGTCACC
AACAAGGGTTCTCCGTGGCAGTTCAAGTACCCAGGCAAAGTTAATAAATTCTCGTGTAAG
AACAAACTCAGCACGCAACTGAGACAAAGCGCCGAGGAATCTATCAAAGAACCAACTCCA
GCTGATCTGTTTCAGCCAAATCCGATCTTAGAGGCGCACAGTTTTGCTACAGGCATGAAA
GTAGAAGCACTAAGTCCGAACGACATGAAGACTTTCCGCCCTGCCACGGTAACCAAAATC
TTCAATAATCTCCATTTCTTGGTCGTCATAGACGATCACCTAGAAGATTACGAGGACACC
AAAATGGCCTGGCTTTGTGATAACATGCACCCCTACATTTACCCCATCGGCTGGGCACAA
TCACACAAACTTGATATTAAGCCACCTAAAGTGTGGAAGGAAGGTGTATTTGAATGGGAG
GATTACCTTGCGATGACCGCCTCCGTCCCCGCGCCGGAATACTGTTTCGGAAACAAGGAA
CAGCTTAAAGGAATCGAAGCCAATATGAAGTTGGAAGCGGTGAATCCTCTGAACCACGAG
GAAATCCACGTAGCTTCGGTCGAATTAATAGTGGAACACATGTTGTACGTCGAACTTTTG
CCGATCGGCGAAAAGTTCTGGTACTCCCAAGATAGCGATCTCTTGTTCCCCGTAGGATGG
TGTGACAGCAACAACTATGAGCTCCATATACCAGACACCAACCCAAAAGAAATACTCAAG
CCCGTCGAGGAGCCCAAAACGATCAAAGATGACATCAAATCATCGGAAGAGTGGTGCGAT
AGAATATTTTTCAATTATAAATGTTATGCCGGTCCGTCGATAAGTCGTAACAAATTATCA
CAGCTGCCCAAAGCTGTGGGCCCTGGACCCTTGCTGCTTGTACTAAAAGAAGTACTCAAC
AAAATCATCTCGGCCTCATACAAACCGGCGAAATTGCTCAAAGATTGGGAAACTGAAGGT
CCGCCAGACGAAGGCATGAAACTAGAAATGCTAAGAGCCAAATTAAAAGCGAGCACGTAC
CACGCGTTCGTCCCCATAACGACCGAGGCGTCCAAGGTGGGCTCGTTCTGTCGGTCCATA
TGTGTCAAGCTACAGGCCTGTCCCAGTCTGTTCGGACCTGACGAGTACCCTCTGCAATGT
CCGCACGCCTGTCAGACGGTCGAGAAGTCAACCTTCCATAATGGAACAGAACGACGAGGC
AGGCCGAAAGGTAGCGTGAATGGAAGGAAAAAAAAGAAAAAAACACAGCAGGAGAAGAGG
GAAAAGGAGCAACCGCCAGTACAGGAGATTGAGCACAGAGATATAGAGTCGGTTGAAAGC
GAACACAGCGCCGGTAAGAAAAGAAATACACAGGACAGCGACACAGAGAACGAGACCAAC
GAGAGTAGCTGCAATTCGAGAGACTCCAAAAACATATCGGACGTCAGCGACTCGGAGGAA
CCGGAACTGAAGAAACTCAAGTTCAACACCAACGATCCGCTGCCGTCAGATAACAAGATG
TTCGAGAAGAACACAACCACCGCCTGGGCCAGGGGGAAAATGAAGCTGGCGAGGAACCCC
CTGGACTGGACGGTCGACGACGTCTACAACTATCTGAGCAACACCGACGACTGCAAACTG
ATAGCGGACAAGATGAAGCAGGAAGAAATAGACGGCCAGGCCTTCATCATGCTGGACCTA
CCCATCATAACGCACTTCCTGCACATGAAGAAGGAGTTCGCTATGCAGCTCTGCAAACAC
ATCACCATGATACGGTGGTACTACATCGACAACTTCGACGACAACGCCGACATGTAA

Protein sequence:

MEFEWNNYLEDTKTIAVPEELFYHVEASLNNGIKQGMLLEVCHKNNPDVYWLAEITMVCG
HLLRIKFIGAQTDFWCDISSTKVHPLGWCGKYDELVEPPDEINERCGETIIDIMKKALLV
GQSVSLEALNNKGMSPIDRIKVGMKVEIQNIIDPYRYWIATVCENIGGRLLLRYDGADED
LPQFWMFFCNTRLSSFGFVTNKGSPWQFKYPGKVNKFSCKNKLSTQLRQSAEESIKEPTP
ADLFQPNPILEAHSFATGMKVEALSPNDMKTFRPATVTKIFNNLHFLVVIDDHLEDYEDT
KMAWLCDNMHPYIYPIGWAQSHKLDIKPPKVWKEGVFEWEDYLAMTASVPAPEYCFGNKE
QLKGIEANMKLEAVNPLNHEEIHVASVELIVEHMLYVELLPIGEKFWYSQDSDLLFPVGW
CDSNNYELHIPDTNPKEILKPVEEPKTIKDDIKSSEEWCDRIFFNYKCYAGPSISRNKLS
QLPKAVGPGPLLLVLKEVLNKIISASYKPAKLLKDWETEGPPDEGMKLEMLRAKLKASTY
HAFVPITTEASKVGSFCRSICVKLQACPSLFGPDEYPLQCPHACQTVEKSTFHNGTERRG
RPKGSVNGRKKKKKTQQEKREKEQPPVQEIEHRDIESVESEHSAGKKRNTQDSDTENETN
ESSCNSRDSKNISDVSDSEEPELKKLKFNTNDPLPSDNKMFEKNTTTAWARGKMKLARNP
LDWTVDDVYNYLSNTDDCKLIADKMKQEEIDGQAFIMLDLPIITHFLHMKKEFAMQLCKH
ITMIRWYYIDNFDDNADM