MonarchBase - Protein-coding gene

DPGLEAN10333 in OGS1.0

New model in OGS2.0	DPOGS212378
Genomic Position	scaffold101:+ 316632-321083
	See gene structure
CDS Length	1233
Paired RNAseq reads	530
Single RNAseq reads	1539
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA004648 (1e-38)
Best Drosophila hit	CG6171, isoform B (3e-08)
Best Human hit	aprataxin and PNK-like factor (1e-14)
Best NR hit (blastp)	conserved hypothetical protein [Culex quinquefasciatus] (5e-18)
Best NR hit (blastx)	PREDICTED: aprataxin and PNK-like factor-like [Macaca mulatta] (2e-27)
GeneOntology terms	GO:0005634 nucleus GO:0005515 protein binding GO:0000012 single strand break repair GO:0046872 metal ion binding GO:0000166 nucleotide binding GO:0004520 endodeoxyribonuclease activity GO:0003906 DNA-(apurinic or apyrimidinic site) lyase activity GO:0006302 double-strand break repair GO:0006974 response to DNA damage stimulus GO:0005737 cytoplasm GO:0005829 cytosol GO:0008408 3'-5' exonuclease activity GO:0016829 lyase activity
InterPro families	IPR019406 Zinc finger, C2H2, APLF-like IPR000253 Forkhead-associated (FHA) domain IPR008984 SMAD/FHA domain
Orthology group	MCL19502

Nucleotide sequence:

ATGACTATAAAATTAGTTCGTACGGATACAATATCTCCTTGCAAAATAAATCTTCCCAAA
GGTGAACATGTTTTTGGTAGAGGAAAACTACTTGATTGTAACGATAAAAGGATATCACGA
GAACACGGTCAGATTATCGTTTCTGATGACTCATTGACAATTAAATCTCTACATCTAAAT
CCTTGCTTTTTTCAAAAGAAGCAATCCACACAAACTGAGATTCTTAAACTAAATAACACC
ACAGTTCTAAACAATGGTGACAGATTTGGCTTATTACCTGACTCATATTGGTTTGAAATA
CTTGTGTGTTATGATGAGAGTAAACATTGTACCGAAGCTAACTCTGAAAATGACACTGAA
GAGTTGTGCTTGGAACAAGGTGGATGTGAAACAAGGAGTGAAGTAAAAAATGTACAGCCT
AATATAAATCTGAGTGGTGACAATGAAGATACCAATGTTAGACCTGAATCACCGTCTCTA
TTAGCAAACACAGACAATGGAGTAGGTGCACCAAACAACTGTGTATCCCCGAGTGAGGGG
AGTGGTTTAGCAGAGCAGTTGCACGGGTCAGATGATACACAGTTGGTGACACAGAAAGTG
GAAGATTTCAAACAATCACCGAGTAAAAGGCCACACAGTCTGGACAATAGTGAAGCAAAG
AAAATAAAAACTGAAGAAAATACTGAAGATGAACCAAATATGAAAACTGAACAAACAGTA
AAAGATGAACCTGCAATCCCTGAGGATAATACGGAACCAGGTGTCAAACCAGGCTGCAGT
ACAGATGATACGCAACCAGCTCAGTGTGATGATAAACAAGGGCCAGTCAAACCTGCAAAG
CCAAGGGAAAGATGCATGTTTGGTGCACAATGTTACAGGCGGAACCCAACCCACTTGGAG
CAGTACAGTCACCCGCAGGATGCCGACTGGGGCGTAGGTGCGCGAGGAGTCTGTCCTTAT
GGGGCCGCCTGCAGGAGACGGAACCTCATGCACTGGAGCACCAACGACCATCCACCAGGG
GTCCTGCCACCGCCACGACCAGGGAAACGAAGGCCGAAGGCACCTGACGAGGATGATGTG
CCACAAGATCTGCCCAGCAAAAGGGTTCGGAAACCGGTTCCTAGACCTGACTGGGTCGGT
TCAGACTCCGAGCCTGAAGATCCATACGGAACAGATGAATCTGACGAGTGGAAACCCGAT
AGTAATACCAATTATTCAGATGATTATATATAA

Protein sequence:

MTIKLVRTDTISPCKINLPKGEHVFGRGKLLDCNDKRISREHGQIIVSDDSLTIKSLHLN
PCFFQKKQSTQTEILKLNNTTVLNNGDRFGLLPDSYWFEILVCYDESKHCTEANSENDTE
ELCLEQGGCETRSEVKNVQPNINLSGDNEDTNVRPESPSLLANTDNGVGAPNNCVSPSEG
SGLAEQLHGSDDTQLVTQKVEDFKQSPSKRPHSLDNSEAKKIKTEENTEDEPNMKTEQTV
KDEPAIPEDNTEPGVKPGCSTDDTQPAQCDDKQGPVKPAKPRERCMFGAQCYRRNPTHLE
QYSHPQDADWGVGARGVCPYGAACRRRNLMHWSTNDHPPGVLPPPRPGKRRPKAPDEDDV
PQDLPSKRVRKPVPRPDWVGSDSEPEDPYGTDESDEWKPDSNTNYSDDYI