MonarchBase - Protein-coding gene

DPGLEAN22643 in OGS1.0

New model in OGS2.0	DPOGS214746
Genomic Position	scaffold1768:- 49136-58591
	See gene structure
CDS Length	3387
Paired RNAseq reads	3758
Single RNAseq reads	8838
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA004740 (0.0)
Best Drosophila hit	piccolo (0.0)
Best Human hit	DNA damage-binding protein 1 (0.0)
Best NR hit (blastp)	PREDICTED: similar to DNA repair protein xp-e [Nasonia vitripennis] (0.0)
Best NR hit (blastx)	PREDICTED: similar to damage specific DNA binding protein 1 isoform 1 [Apis mellifera] (0.0)
GeneOntology terms	GO:0005737 cytoplasm GO:0006974 response to DNA damage stimulus GO:0005634 nucleus GO:0003677 DNA binding GO:0006281 DNA repair GO:0003676 nucleic acid binding GO:0003684 damaged DNA binding
InterPro families	IPR004871 Cleavage/polyadenylation specificity factor, A subunit, C-terminal
Orthology group	MCL13779

Nucleotide sequence:

ATGGCTTATCATTACGTAGTTACCGCACAGAAGCCTACAGCAGTTATATCATGTATCACA
GGAAATTTTACATCACCTACGGATCTGAACCTTCTAGTGGCGAAGGTGTCTCGCCTGGAG
ATGTACCTAGTAACTCCAGAGGGACTGAGACCTATGAAGGAGGTTGGGCTGTATGGGAGG
GTGGCTAAGATGAAATTATTTAGACCACCGTATGAGCAAAAAGATTTAGTATTCATACTG
ACGGCTCGTTACAATGCTATGATACTGGAATGGAGGACAGGGGCTAACGGGGAGCTGGAG
GTAGTCACCAGAGCTCATGGCAATGTTGCCGACCGTATCGGCAAACCATCGGAGAACGGA
ATTCTGGCAGTCATAGACCCACAAGCCAGAGTGATCGGACTCAGGCTATATGATGGATTA
TTTAAAATAATACCACTGGATAAAGATTCTACTGAGCTCAAAGCTGCTAGTTTAAGATTA
GAAGAGCTGAATGTGTACGACTTAGAATTTCTGCACGGATGCTCAAATCCAACATTAATT
TTAATTCATCAGGATCTCAATGGAAGACATATTAAGACCCATGAGATTAATTTAAGGGAC
AAAGAATTCATGAAGATACCATGGAAGCAGGACAATGTGGAGACAGAGGCTTCAATTCTC
ATTCCAGTTCCAAGTCCACTTGGTGGTGCTATTGTGATTGGTCAAGAATCTATTGTGTAT
CATGACGGACAAAGTTATGTAGCAGTTGCACCGCCACAGATAAAGACCCCTATCAACTGC
TACTGCCGCGTGGACGTTCGCGGTCTGCGCTACTTGCTGGGCGACATCGCCGGCCGCCTA
TTCATGCTGTTGTTGGAACTGTCGGAGCGAGATGGCACAGCCTCTGTCAGGGACCTCAAA
GTTGAACTGCTCGGTGATATCCCGATACCCGAGTGTATGACTTATTTGGACAACGGCGTG
GTGTTCGTGGGGTCTCGCTTGGGGGACAGCGCCCTGGTCCGGCTGGCCGCGGTGAGGGAC
GACGCCTCGCAGTACGTGCAGCCCATGGAGACCTTTACCAGCCTCGCGCCCATCGTCGAC
ATGTGCGTCGTGGACCTCGAGCGCCAGGGACAGAACCAACTCATCACGTGCTCCGGTGCG
TTCAAGATGGGTTCGCTGCGTATAATACGGAACGGGATCGGCATCCAGGAGCAGGCGTCC
ATAGACCTGCCCGGCATCAAGGGCATGTGGGCGCTCACACTCGGCCAGGGACCGCACCAC
GACACCCTCGTACTGTCCTTCGTGGGACAGACTCGTGTGCTGACTCTAAACGGCGAGGAG
GTGGAGGAGACAGAGATAAAGGGTTTCGTGTCGGACAGACAGACATTCTTCACCGGGAAC
GTGTGCCACGACCAGCTGATCCAGGTCACCGACGAGGGTATACGACTCATAGGACGCGGG
CCGGGTGGCTGGAACGGAGTCGCCGCCTGGGCCCCCGCAGGCCGAGCGGTGTCCGTGGTG
TCGTGTGGAGAAACGCGGGCCGTGGCCGCCGCTGGGCTGAGGATATACCTCGTGGCCATA
AAACAGGGGGCGCTGGAATTGATTTCTGAGGTGTGCATGAACGAGGAGGTGGCCTGCCTG
GACCTGGGCCCGGGAGGCGAGGAGGCCCTGCTGGGTGTTGGGCTATGGACTGATATATCC
GTCAGAGTGCTCAAGTTACCGGACCTCCGACCACTCCACACGGAGAAACTCTCTGGAGAG
ATAATCCCGCGCTCTCTTCTCATCTGTGTGTTGGAGGGCGTGTGTTATTTGCTGTGCGCG
TTGGGTGACGGCTCTATGTTCTACTTCACCGTAGACCCGGACAGCGGAGTGCTCACCAAC
AAGAAGAAGGTCACACTTGGCACGCAGCCCACAGTACTCAGGAGCTTCAGATCGCTGTCA
ACGACCAACATCTTCGCGTGCTCTGATCGTCCAACAGTTATATTTTCGTCCAACCACAAG
TTGGTTTTCTCCAACGTTAATCTCAAGGAAGTGGCCCATATGTGTTCACTCAACGCCGTG
GCTTATCCCGACAGCTTGGCTCTAGCCACGGACAGCACAGTGACCATCGGTACCATAGAT
GAAATACAGAAGCTGCACATCCGAACCGTGCCCCTGGGGGAGACGCCCAGACGCATCGCG
TACCAAGAAGCTTCGCAGACGTTCGGCGTGATCACGATGCGCGTGGACAAGGTGGAGTGG
ACGGGCGGGTGCGGCTCGCTGGTGCGGCCCTCGGCCTCCACGGCCGCCGCTTCCGCCTCG
GCCGCCGCCCCGCCCTCCAAGCACGCGCCCGCCCCGCTCGACCTCGAGCTCCACAACCTG
CTCATACTGGACCACCACACCTTCGAGGTCCTCCACGCTCATCAACTGCTGGCCAACGAG
TTCGCCATGTCGCTAGTGTCGTGCAAGCTGGCCGACGATCCCAACCACTACTACGCTGTG
GGCACCGCCATACTCAACCCCGAGGAGTCGGAACCCAAACAGGGGAGGATTCTCTTATTC
CACTGGTGCGAAGGAAAACTCACTCAAGTTGCTGAAAAAGAAATCAAAGGAGGTTGTTAC
ACGTTGGTGGAGTTCAATGGAAAGTTACTAGCATCCATAAATAGCACTGTTAGATTATTT
GAATGGACTTCGGAGAAGGAGTTGAGATTAGAATGCAGTCACTTCAACAATATTGTGGCC
CTGTACCTCAAAGTCAAGGGCGACTTCATACTTGTGGGAGATCTCATGAGGTCCATGTCT
TTGTTGCAGTACAAGCAGATGGAGGGTTCCTTTGAAGAGATAGCTCGTGACTACAGCCCC
AACTGGATGACGGCCGTCGAGATCCTAGATGACGACACCTTCCTCGGGGCCGAGAACAGC
TTCAACCTCTTTGTATGCCAAAAAGACAGCGCGGCCACGACCGATGAAGAGAGGCAGCAG
ATGGGCTACATGGGTCAGTTCCACGTCGGTGACATGGTGAACGTGATGAGGAGGGGCGCT
CTGGTCGCTCAACTCGCAGACACCGCCGCGCCCGTCGCCCGACCCGTCCTGCTGGCTACC
GTCTCCGGCGCTATATGTCTGGTTGTGCAATTATCACAGGAACTATTTGATTTCCTTCAC
CAACTAGAAGAGAGGCTCACACACACCATTAAATCGGTGGGCAAGATCCCTCACTCGTTC
TGGAGATCCTTCAACACTGATATCAAAACTGAACCAGCCGAAGGGTTCATCGACGGTGAC
CTGATAGAAAGTTTCTTAGATCTCTCCAGAGACATGCAGCAAGAAACCCTGCAAGGATTA
CAGATTGACGACGGCGGTGGCATGATGAGAGATGCCACAGTTGATGATCTCATCAAAATA
GTGGAGGATCTCACCAGGATACATTAG

Protein sequence:

MAYHYVVTAQKPTAVISCITGNFTSPTDLNLLVAKVSRLEMYLVTPEGLRPMKEVGLYGR
VAKMKLFRPPYEQKDLVFILTARYNAMILEWRTGANGELEVVTRAHGNVADRIGKPSENG
ILAVIDPQARVIGLRLYDGLFKIIPLDKDSTELKAASLRLEELNVYDLEFLHGCSNPTLI
LIHQDLNGRHIKTHEINLRDKEFMKIPWKQDNVETEASILIPVPSPLGGAIVIGQESIVY
HDGQSYVAVAPPQIKTPINCYCRVDVRGLRYLLGDIAGRLFMLLLELSERDGTASVRDLK
VELLGDIPIPECMTYLDNGVVFVGSRLGDSALVRLAAVRDDASQYVQPMETFTSLAPIVD
MCVVDLERQGQNQLITCSGAFKMGSLRIIRNGIGIQEQASIDLPGIKGMWALTLGQGPHH
DTLVLSFVGQTRVLTLNGEEVEETEIKGFVSDRQTFFTGNVCHDQLIQVTDEGIRLIGRG
PGGWNGVAAWAPAGRAVSVVSCGETRAVAAAGLRIYLVAIKQGALELISEVCMNEEVACL
DLGPGGEEALLGVGLWTDISVRVLKLPDLRPLHTEKLSGEIIPRSLLICVLEGVCYLLCA
LGDGSMFYFTVDPDSGVLTNKKKVTLGTQPTVLRSFRSLSTTNIFACSDRPTVIFSSNHK
LVFSNVNLKEVAHMCSLNAVAYPDSLALATDSTVTIGTIDEIQKLHIRTVPLGETPRRIA
YQEASQTFGVITMRVDKVEWTGGCGSLVRPSASTAAASASAAAPPSKHAPAPLDLELHNL
LILDHHTFEVLHAHQLLANEFAMSLVSCKLADDPNHYYAVGTAILNPEESEPKQGRILLF
HWCEGKLTQVAEKEIKGGCYTLVEFNGKLLASINSTVRLFEWTSEKELRLECSHFNNIVA
LYLKVKGDFILVGDLMRSMSLLQYKQMEGSFEEIARDYSPNWMTAVEILDDDTFLGAENS
FNLFVCQKDSAATTDEERQQMGYMGQFHVGDMVNVMRRGALVAQLADTAAPVARPVLLAT
VSGAICLVVQLSQELFDFLHQLEERLTHTIKSVGKIPHSFWRSFNTDIKTEPAEGFIDGD
LIESFLDLSRDMQQETLQGLQIDDGGGMMRDATVDDLIKIVEDLTRIH