MonarchBase - Protein-coding gene

DPGLEAN10878 in OGS1.0

New model in OGS2.0	DPOGS206046
Genomic Position	scaffold4:- 331454-341674
	See gene structure
CDS Length	1809
Paired RNAseq reads	389
Single RNAseq reads	1276
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA003472 (1e-29)
Best Drosophila hit	clock, isoform A (7e-117)
Best Human hit	circadian locomoter output cycles protein kaput (4e-106)
Best NR hit (blastp)	clock [Danaus plexippus] (0.0)
Best NR hit (blastx)	clock [Danaus plexippus] (0.0)
GeneOntology terms	GO:0003677 DNA binding GO:0007623 circadian rhythm GO:0045893 positive regulation of transcription, DNA-dependent GO:0003702 RNA polymerase II transcription factor activity GO:0005634 nucleus GO:0048148 behavioral response to cocaine GO:0045475 locomotor rhythm GO:0008062 eclosion rhythm GO:0045187 regulation of circadian sleep/wake cycle, sleep GO:0007622 rhythmic behavior GO:0045944 positive regulation of transcription from RNA polymerase II promoter GO:0007165 signal transduction GO:0003700 sequence-specific DNA binding transcription factor activity GO:0004871 signal transducer activity GO:0046982 protein heterodimerization activity GO:0000122 negative regulation of transcription from RNA polymerase II promoter GO:0005515 protein binding GO:0032922 circadian regulation of gene expression
InterPro families	IPR011598 Helix-loop-helix DNA-binding IPR001067 Nuclear translocator IPR001092 Helix-loop-helix DNA-binding domain IPR000014 PAS IPR001610 PAC motif IPR013655 PAS fold-3 IPR013767 PAS fold
Orthology group	MCL11716

Nucleotide sequence:

ATGGATGACGACGGGGATGATAAAGATGACACCAAAAGGAGAACTCGCAATCTTAGTGAG
AAGAAGAGGAGAGACCAGTTCAACATGCTTGTCAATGAACTCGGTTCTATGGTATCAACA
AATAATAGAAAAATGGATAAATCAACTGTTCTTAAGTCTACTATATCATTCTTAAAGAAC
CATAATGAGATAACAGTGCGATCACGAGCTCATGATGTCCAAGAAGATTGGAAGCCGGCT
TTCTTATCTAATGAGGAATTCACCTACTTAGTCTTGGAGGCCTTGGAGGGTTTTGTTATG
GTATTTTCAGCTAGCGGTTGCATTTACTATGTATCGGAAAGTGTGACATCTTTGCTAGGG
CATACTCCGGGAGACATTATCAATAAAAGTATATTTGATTTGGCATTTGTTGATGATCGT
CCAAATCTATACAACATTTTGCAAAATGGCGGTACCCTCGATCCGACCCAAGTTGTGACG
ACAGATAATCCTATAAGCTTCCGTTGCCGCCTGCAAAGGGGAACATTAGATTTCAGAGAT
GAAGTAACCTACGAATTGGTCCAATTCGATGGCCACTTCCGTAAAAATCTGGAGTCGAAT
GAGAACGGCCATCATTCGTATCAGGATGAACACGAATCGAGATTACTATTCGTGTGCACC
GGCAGGCTGTATATGCCACAGCTAGTTCGCGACGTGTCTCTCGTTGATACTATTCGTAGC
GAGTTCACATCGCGCCACAGCCTGGAGTGGAAGTTTTTGTTCTTGGACCACCGCGCCCCT
CCCATCATAGGATACTTGCCATTCGAAGTCCTAGGCACATCAGGATACGATTACTACCAT
TTTGATGATCTAGAGAAGGTCGTGTCCTGTCACGAAGCCTTGATGCAAAAGGGCGAGCTG
ACTTCGTGCTACTATAGGTTTCTGACCAAGGGTCAACAGTGGATCTGGCTCCAGACACGT
TTTTATATAACATACCATCAGTGGAACTCTAAACCCGAATTCGTTGTTTGCACTCATCGA
GTCGTTAGTTATGCTGATATAATAAAAAGCACAAAACAGGAGCGTACAGAGACAGAGGAG
TCTGTTCGTGACTGCGATCATAACGGATCGTCTTTGAAGGATCCTTCCACTGAGGACGCT
ATGGTGCCCGTATCACCCTCATATATGTCAGAGGCAAGCGACGCCTTCGCCACCTCATAT
AATTCTATGTCCAAGCTGGCATCGGTGAAGTCTGCGGCCACATCAGGCAGTACAAGTGCG
ACGGTGGCCACACTTGGAACTGCCATCACCACAGCGAGTGCCACATGGCCACCACGATCG
TCCTATCTGCTGTACACCACTGGTTCTGACACCACTTCCGTATCCGGTGGATCTCGATCC
TCGCAGAGGAATAGCTCTCAGGAGTTGCAGAGGTTACCTGAACCGGCCCTGGTGCCGCAA
CACGGTATTGGTGCTCAGTATCTGGAGCCCGCCCCCTACGTGGGCGCTGTCGGCGTCCCC
GCTGTACTGCCGCTATCTCTACCACCCATACCGGTTATAGTCGCACAAGATCAGGCCCAG
TTACAGTTGCAGCGAACCCATCGTGAGCTGCAGCAGATGATCGTGAGGCAGCAGGAGGAG
CTGCGCCAGGTGAAGGAACAGCTGCTGTTCGCGAGGCTCGGTATACTGCAGCCGGTTATC
AACGTCCAGGATCCGTTCACGAATCCAGAGCAAATGCCGAACCGGTCGTCCATCATGTAC
GATGGTAACAGACAGCTAAGCTATCCGCAGACGAGCCACCAGCAAAATCACAACATGCCG
CCACAGTAA

Protein sequence:

MDDDGDDKDDTKRRTRNLSEKKRRDQFNMLVNELGSMVSTNNRKMDKSTVLKSTISFLKN
HNEITVRSRAHDVQEDWKPAFLSNEEFTYLVLEALEGFVMVFSASGCIYYVSESVTSLLG
HTPGDIINKSIFDLAFVDDRPNLYNILQNGGTLDPTQVVTTDNPISFRCRLQRGTLDFRD
EVTYELVQFDGHFRKNLESNENGHHSYQDEHESRLLFVCTGRLYMPQLVRDVSLVDTIRS
EFTSRHSLEWKFLFLDHRAPPIIGYLPFEVLGTSGYDYYHFDDLEKVVSCHEALMQKGEL
TSCYYRFLTKGQQWIWLQTRFYITYHQWNSKPEFVVCTHRVVSYADIIKSTKQERTETEE
SVRDCDHNGSSLKDPSTEDAMVPVSPSYMSEASDAFATSYNSMSKLASVKSAATSGSTSA
TVATLGTAITTASATWPPRSSYLLYTTGSDTTSVSGGSRSSQRNSSQELQRLPEPALVPQ
HGIGAQYLEPAPYVGAVGVPAVLPLSLPPIPVIVAQDQAQLQLQRTHRELQQMIVRQQEE
LRQVKEQLLFARLGILQPVINVQDPFTNPEQMPNRSSIMYDGNRQLSYPQTSHQQNHNMP
PQ