MonarchBase - Protein-coding gene

DPGLEAN13809 in OGS1.0

New model in OGS2.0	DPOGS210816
Genomic Position	scaffold550:+ 17857-20210
	See gene structure
CDS Length	1290
Paired RNAseq reads	116
Single RNAseq reads	337
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA007132 (4e-105)
Best Drosophila hit	CG9272 (2e-76)
Best Human hit	endonuclease III-like protein 1 (6e-81)
Best NR hit (blastp)	predicted protein [Nematostella vectensis] (7e-89)
Best NR hit (blastx)	predicted protein [Nematostella vectensis] (4e-87)
GeneOntology terms	GO:0003677 DNA binding GO:0005515 protein binding GO:0003690 double-stranded DNA binding GO:0006285 base-excision repair, AP site formation GO:0003906 DNA-(apurinic or apyrimidinic site) lyase activity GO:0003824 catalytic activity GO:0004519 endonuclease activity GO:0005739 mitochondrion GO:0006296 nucleotide-excision repair, DNA incision, 5'-to lesion GO:0005634 nucleus GO:0019104 DNA N-glycosylase activity GO:0051539 4 iron, 4 sulfur cluster binding
InterPro families	IPR003265 HhH-GPD domain IPR000445 Helix-hairpin-helix motif IPR003651 Endonuclease III-like, iron-sulphur cluster loop motif IPR011257 DNA glycosylase IPR023170 Helix-turn-helix, base-excision DNA repair, C-terminal
Orthology group	MCL14946

Nucleotide sequence:

ATGCCTCCAAAAAAAGGAAAACAACTTGCTTCAACGAGTGTTGCAGTAGCAAAAGCTTTA
AAGAAGAATGAATTACACAGTATTATTAATAAGCCTGAACCATCTTCGACGGATATTATG
CTTGATTTAAACAAATTTAAATTTGAAAAGAAGCCACCTGTAAAAATTGAATTTGATAAG
GAGTCTCCCACTAAACAGGATCAAGAAGTTTTGTGGGAACCACCGAAATGGCGAGAATTT
TTGATAAATTTGAGAAATATGAGAGCAAACAACGATGCTCCTGTGGATTCAATGGGTTGT
CACATGTCCATGGATGAAGATGCTCCTCCAAAAGTAATGAGGTATCAAAGTCTAATTTCC
CTCATGCTGTCCAGTCAAACCAAGGATCAAGTTACATTTGCAGCCATGGAAAGACTAAGA
GCTAAAGGACTGACGGTGGACAACATCTTGGATATGAGTGATGAGGAATTAGGTCAACTT
ATTTATCCAGTAGGGTTTTGGAAGACTAAAGTAAAATACATAAAGAAGACAACACAAACA
TTGAAAGATCAGTACGATGGAGACATACCAGACTCGGTGGATAAACTCTGCAAGCTTACC
GGAGTTGGACCTAAAATGGCACATATTTGTATGAAAGTTGCTTGGAATAAAGTGACTGGC
ATTGGTGTTGACACCCACGTCCATAGAATAAGCAACAGAATAGGATGGGTTAAAAAATCT
ACATCTACACCAGAAGATACTCGAAAAGCATTACAATCATGGCTGCCATTTGAGCTTTGG
AGTGAAGTCAATCATTTAATGGTAGGATTCGGTCAGACGATCTGTTTACCCATCGGACCC
AACTGTCAGGAATGTTTAAATAATGATATTTGTCCTTCAAGCGAGAAGGATAAGAAGTCT
CCATATAAGAGGTCACCAAAGAAATCACCAGCAAAGATTATTAAAAGTGAACCAATGGAA
ATGGGTTTGGATAAAATCAACAATCATGAGGTTAAAGAGCTAACCCACACAAGTTTACAA
GATGGAAATGCTGATATTCTTAAAGTGAAAGGTTTAATTTCATCCAAACTAGAAAATGAA
ACGGTTGTAAAAACTACAAAATCACCCAAACAAGAAGTTCAAACATGCAATTTGTTAGAA
AACATAGAGTGTCCTGACATCGTGATAACTAATGACAGGAGTTCTAAGAAAATCCCTTCA
GAAATAAAAAAACGAAAGTCACCCAGAGTACTAAAACAGAGTTTGGCCGCTAGCGATACA
AAGATAAAAAAGATAAAACAAAAGAAATGA

Protein sequence:

MPPKKGKQLASTSVAVAKALKKNELHSIINKPEPSSTDIMLDLNKFKFEKKPPVKIEFDK
ESPTKQDQEVLWEPPKWREFLINLRNMRANNDAPVDSMGCHMSMDEDAPPKVMRYQSLIS
LMLSSQTKDQVTFAAMERLRAKGLTVDNILDMSDEELGQLIYPVGFWKTKVKYIKKTTQT
LKDQYDGDIPDSVDKLCKLTGVGPKMAHICMKVAWNKVTGIGVDTHVHRISNRIGWVKKS
TSTPEDTRKALQSWLPFELWSEVNHLMVGFGQTICLPIGPNCQECLNNDICPSSEKDKKS
PYKRSPKKSPAKIIKSEPMEMGLDKINNHEVKELTHTSLQDGNADILKVKGLISSKLENE
TVVKTTKSPKQEVQTCNLLENIECPDIVITNDRSSKKIPSEIKKRKSPRVLKQSLAASDT
KIKKIKQKK