MonarchBase - Protein-coding gene

DPGLEAN16439 in OGS1.0

New model in OGS2.0	DPOGS214303
Genomic Position	scaffold979:- 86655-90842
	See gene structure
CDS Length	2052
Paired RNAseq reads	1621
Single RNAseq reads	3752
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA004108 (0.0)
Best Drosophila hit	Fcp1 (6e-85)
Best Human hit	RNA polymerase II subunit A C-terminal domain phosphatase isoform FCP1a (1e-62)
Best NR hit (blastp)	PREDICTED: similar to RNA polymerase II subunit A C-terminal domain phosphatase [Tribolium castaneum] (0.0)
Best NR hit (blastx)	PREDICTED: similar to RNA polymerase II subunit A C-terminal domain phosphatase [Tribolium castaneum] (7e-150)
GeneOntology terms	GO:0008420 CTD phosphatase activity GO:0005700 polytene chromosome GO:0005634 nucleus
InterPro families	IPR004274 NLI interacting factor IPR001357 BRCT IPR023214 HAD-like domain IPR011053 Single hybrid motif IPR011947 FCP1-like phosphatase, phosphatase domain IPR000089 Biotin/lipoyl attachment IPR015388 FCP1-like phosphatase, C-terminal
Orthology group	MCL13523

Nucleotide sequence:

ATGGCTGACAAAACTATGCCTATTTCTGTTCCATCCGAAAAGCCTTTAAAAGTTATAAAA
TGGAAAGTTAAGGAAGGTATTTTTGTGTCCTGTGGTCAAATATTATTTTTATACAGTGAT
TCGTCAGGCAATAAAAGTGAAGTTAAGAAATTTAAAGCATTGCGCTCTGGTACTATTGTG
TCCATCAAGGTGAAAGAAGGAGACATCGTAGAGCCTGGGGGTTGTATAGCTGATTTAGAA
CAATGCCGCCATCCCACTGTCATGAAAGAAATGTGTGCGGAATGTGGAGCCGATTTACGT
TCCGGAGAATCACAAAAAAGAGATGTAGCTGTGGTCCCCATGGTTCACTCTGTACCCGAG
TTAAAGGTATCTGAAGAATTGGCACAAAAATTAGGTCGTGAGGACGCCGATCGCTTACTT
AAAGATCGTAAACTTGTTTTGCTTGTTGATCTTGATCAAACGTTAGTGCACACCACCAAT
GACAATATACCTCCTAATATAAAAGATGTACTCCACTTCTTTCTTCGAGGTCCTGGCAAT
CAAGGCAGGTGGTGTCACACTAGATTAAGACCTAAAACCCATGAGTTCTTAGAATCTGCA
GCCAAGAATTATGAGCTACATGTATGTACATTCGGTGCGAGGCAGTATGCACATGCAATA
ACTGAATTATTGGATCCACAAAAAAAATTCTTCTCTCACAGAATTCTATCAAGAGATGAA
TGCTTCGATGCTAGGACCAAGTCAGCAAATTTGAAAGCACTATTCCCTTGTGGCGACAAC
ATGGTGTGTATTATTGATGATCGTGAAGATGTATGGCGTCATGCCAGCAACTTAATCCAA
GTGAGACCTTACTCATTCTTTCAGTCCACAGGTGATATAAATGCTCCACCGCCATTGCCT
GAAGAAAAGACGAAACTTTTAAGCGGCAAAAATGGTTCCCAAGTATCCAAAGATAATCAA
ATGCCAACACTGGATGCTGAGCCGGAGAAAGAAAATAAAGAGATCATAGAGAAAGTTAAT
TCAGATAAGAAAGATAGTGAAAACGGTATAATAAAAGATAAAAAAGATGATAAAATGGAA
AATGATGCTAATGAAAAAGTTGAAACACCAGTGTGGGTTGAATCATCCGAAGGGCAGATA
GAAGTTGATGATCCCGATGACTATTTAATATATCTAGACGACATATTAAAAAGAATACAC
AACCACTTCTATGATATATATGATAAAATGGAGAATAGTGAAAATGAGAAAAGTATCCCA
GATTTGAAATATATAATACCTGAAGTTAAAAGTCAAGTGCTGGCTGGTTCCAGTCTTGTG
TTTAGTGGTTTGGTGCCTACACACCAGAGGTTAGAGACATCAAGAGCATATCAAGTTGCA
AAAACATTAGGGGCTGAGGTCACACAAGATTTCACAGATAAAACTACACATTTAGTTGCT
ATGAGAGCAGGTACAGCGAAAGTAAATGCAAGTAAAAAGCTGGGCGAAGATAAATCAAAG
ATACATGTCGTTACACCCGAATGGCTGTGGACTTGCGCCGAGCGTTGGGAGCGTGTTGAA
GAGAAATTGTACCCTTTACAAAGAGTAGGGCAGAGCAGTTTACGCCGCCCGCCCGCGCAT
TGCAATAGCCCTCCACCAGCACCTGCGGTAAGGAAAAGGACTCCGTCCGGCCGATTCATG
GACACTATCAATCCTCTGCTGTCTTTTTCAAGCGATGATATTGCTGATATGGATAGAGAG
GTAGAAGACATTTTTAATGAATCTGATGAGAGTTCATCGGACGACGAGGAGAAGGTGCTC
GGTGATAATGATGAAGAGAATATTACTGAAGACAGACTGCTGAGTCTGGAGTCAGGAAAT
AGTGCTCAGGAAAGGTTACAAGAAAAACTCAATGAAGATTCTAATGATTCCAACACAGAA
GATGGGGAGAGAGCTCTTAAAAGGCCACGACCATCCACACCCTCGGATGATGAGGGTCCG
CCTGATGATGACGATACTTCGTGGAACCTCATGGGCGCAGCCCTAGAGAGGGAATTCCTC
GCTCAGGATTAA

Protein sequence:

MADKTMPISVPSEKPLKVIKWKVKEGIFVSCGQILFLYSDSSGNKSEVKKFKALRSGTIV
SIKVKEGDIVEPGGCIADLEQCRHPTVMKEMCAECGADLRSGESQKRDVAVVPMVHSVPE
LKVSEELAQKLGREDADRLLKDRKLVLLVDLDQTLVHTTNDNIPPNIKDVLHFFLRGPGN
QGRWCHTRLRPKTHEFLESAAKNYELHVCTFGARQYAHAITELLDPQKKFFSHRILSRDE
CFDARTKSANLKALFPCGDNMVCIIDDREDVWRHASNLIQVRPYSFFQSTGDINAPPPLP
EEKTKLLSGKNGSQVSKDNQMPTLDAEPEKENKEIIEKVNSDKKDSENGIIKDKKDDKME
NDANEKVETPVWVESSEGQIEVDDPDDYLIYLDDILKRIHNHFYDIYDKMENSENEKSIP
DLKYIIPEVKSQVLAGSSLVFSGLVPTHQRLETSRAYQVAKTLGAEVTQDFTDKTTHLVA
MRAGTAKVNASKKLGEDKSKIHVVTPEWLWTCAERWERVEEKLYPLQRVGQSSLRRPPAH
CNSPPPAPAVRKRTPSGRFMDTINPLLSFSSDDIADMDREVEDIFNESDESSSDDEEKVL
GDNDEENITEDRLLSLESGNSAQERLQEKLNEDSNDSNTEDGERALKRPRPSTPSDDEGP
PDDDDTSWNLMGAALEREFLAQD