MonarchBase - Protein-coding gene

DPGLEAN15675 in OGS1.0

New model in OGS2.0	DPOGS207122
Genomic Position	scaffold1:+ 3027130-3030753
	See gene structure
CDS Length	3624
Paired RNAseq reads	219
Single RNAseq reads	662
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA013083 (0.0)
Best Drosophila hit	CG32104 (2e-91)
Best Human hit	RNA polymerase II-associated protein 1 (2e-44)
Best NR hit (blastp)	hypothetical protein TcasGA2_TC012660 [Tribolium castaneum] (2e-176)
Best NR hit (blastx)	hypothetical protein TcasGA2_TC012660 [Tribolium castaneum] (2e-168)
GeneOntology terms	GO:0005488 binding
InterPro families	IPR013929 RNA polymerase II-associated protein 1, C-terminal IPR013930 RNA polymerase II-associated protein 1, N-terminal
Orthology group	MCL13318

Nucleotide sequence:

ATGATAAGACGTCCCAAGAAAGGTGAAAATGAAGAAGATTTATTGCGAATGCAAGAAGAA
TTTCTAAGAGAAAAAAATGCGCCTTCAGCACAAGTGGTAAATTTACGTAAAACCGAACAC
CAAACAACTAAAAGAACTAATTCTAGTACTTCAGACAGAAAGCTATCTAAATATGCTAAA
TCTAAAGGACTTCAAAATTCGGAAAAAAGGACTAAAGTTGATAACAGTACTGGTTCCCTT
TTTGGAGACATAATGGAAAAGAATGTGTCTGAAGAACCACAACCAGAACGTACGGAATTC
GAAGATGATAAAGTTTATTATCCTAAAGTGCTTCCATTTGTTCTTGGTGATATAGTGGAA
AAAAGCAATGATGACATTTTAAGCTTGGATTTTAAGATGACACCCCAAGGCTTTCCAGCT
GCTATCAAAAATGATTTAAAATTGAAACCTATCCCAAAGAAAGGGTCCCTACCCTTTAAA
AAATTAGGTGACATTGAAGAAGAAAAGATGGATATTGATTCGTCTTCCGATCATCATGCA
AGTAATACATCAAAGTTAAATATTCCTAACAAAAGTTATATTCTCAATTCAAATGAGGCA
AATGCTATTCACAGTGAAAATGTGAATACGCTCAGTAAAATGACAGAAGAACAGATATTA
TCTGAACAACATAAACTGTTGTCTAGCTTGGACCCAAAACTGGTAGATTTTATAAAAAGT
GTGAGGAAACCAAGTAACACTGATCACATACAACTTGAAAATCAGTCACAAAATCAATTA
ATGGATGTTTCTGAGCCTAAACAAGAGGAGACAGAAAAAGTTGTACAAGAAAATGATCCA
GTTAATAATGATACGCTATGGGAGAGTGATGTGCTTTCTCATCCACATATCAATCAATGG
ATTCATTTTAATGATTTAGAAAAAGAAAAATTAGAATGGATGAAAGGCATTGAAGAGAGT
AAAAAACTTAAACCTAATGAACCTTTTGAAGCAAGATTTGATTTTAAAGGCTACCTTCTA
CCTTATACTATGGAGTATACTGAGGAAACAAAAACTTTGTTTCATCATGGTGAGGAACCA
CACCGACCAGGCTACTCCATTACAGAACTCATTGAGCTCTCTCGCTCTACTATCATACAA
CAAAGAGTTATGGCTCTAAATACTATAGCTGAGCTTTTAGAATATTACATTTCAGGTTTT
TATAAAGATGTGATAGAAATTCCACTGAGCAAACTATTTTTTGTTATCAGAATTGCTATG
GATGAAAATAAGACCATTCTGTTACAAGCAGCACTTAAAGCTATGAGAAATTTACTGTAC
AACAGAATTGATGAAGCCTGTCTTGATGCTTTATTGGGATTTGAAGAAGGCTCTTATCAG
CCTTGTTTAGAAAATGATAAATCAGAAATTTCTGAAATAGAATCAGAGGAATCCGAACTA
AAAGATTTTCACTTGGCTGAAATAGATCTTTTGTCCGCTGTGCTTAGAACAGATATATTA
CAAAGACTTTACTATATCTTAGAATGTGTAAGACCAAGTTTTAATTGTGTGCAGTATTCA
TTGCAAATACTGACAAGGATATCACGTGACTCAATAGAAGCGGCTCAAACTATTGTCAAC
ATAGAACATTTAATGACTTCGATTATTCAAAACTTTGTTCCAACTACAAGTATAAATTTT
TCATTTGGTCCGAACATTGTTTATAGTGGCAAACCTATTATGGCAGCCTTAAAATTAATA
AGGATATTGTCTTTGCAAAACAAAGACATTGGAGAAATTTTAATAACCAAATATAATATA
TTAGAACCTCTATCAGAATACATACGATCAGGTGTAGATGGTACTTATGGTTTAAGACTG
CAAGTAGAAGCATTCAGTATTTTGTCCAATCTTATAAACTATGGACTTGGGGTTGATAAG
GCATTCTCATTATTTCCTATAATTATCACTACAATATATAAACATGTTCAAGGCACAGAC
ATCTTTATTTCTTCATCAATAATATCAGCACAACATGCAGCTGTTGTTCTACAATTGTTA
AATAAAATGTTCAATTGCAAGATGATTAATTCAGATAACTATAAAGAACAGGCTTATCCA
TTATTGAAAGAAGGATTGCAGAAATGGTTGATGCAAACTGCTGCGATGGATGAATACACA
TGTGGACATTTGAGGCTATTATGTTCAGCTCTAGACTGCTGTAAAACAGTCTTAATAAAT
GAGAAAGTGACACTAAAATTCCTCAATGACTCCTTGACAACATTTGCAGGTTCCAAAGGT
TTTAAAAACATTATTAAAAACCTTATCCCAAGCTCTAACCTTGTGTCCAATATAGATGAA
AATGATTTAAATTATTTTAAAAATCTTGTCAGTCTTGGTGGATCTATCATTGATTCTACT
CAAAAAGTCCTTCCAGTATTGAATATTTTGTCTCCTATTCCAGTTTTGGTGTCATTGTTT
AAATTGTTAAACATTATAAATGATATAAATATATCAAAATTATTTTTAGAACAGCTTACA
GAATACTTAACAAAGTTGTCAAAAAAAGAGCCAAGTTTATGCAACAACTGGTTTACGAGA
ATGGAAATTGATTTTGTATTTAACATAATAAAGTTATATACAAAGACTAACACTTCAGAA
TCATCGAAAGATTTAATTTACTCCGTAGCCAGCACACTATGTTATATACTCAGGGTTGAT
AAAAAATTAGAATTGGATTACCTATTCAATAATATAATTTATAACAAAGATTGGTTTTCA
GCGGAGAGATTATTGAACATTATCTCATTATCTGAAGAGGATGGAATTGGTGAAGTGTTA
GTGAATGTGGATGATATTAAAGCATGCTATACAAAAGTAATAAATGCAAACAAAATTGAA
ACTAGTGGTAATATTGTATTAAACGAGTGGCGGGATCCTGTGTTACCGAGGGACTGGATT
TACTTGCCAATATTATCTCTTTATAGCAGTAGCCAGACAACAACAAGCCCGGAAGTAATA
GGTGAACATGCAACACGAGTTAAGCAACAGATTGCAGCTGAAAAGGAAATGTTAGTAAAA
TGCAGCCTTGAATGGATTGTGTTCAATGAAATCTGTTTTCCTGACTTGTTGAAAGACATA
GACATAACAGATAGATTCTGTAGAGTAATGTGTGTATACTTATGTGATAACTCCTTATTT
TTAGATAAAACTATACAAATGTTGTTAAAGAAATGTACACAATTGTTATTCAAAAAGGGT
AGCGAGTTTAATTTTGATAAACAGTTGACTGGCCTGAATAATTTTCAAGATTTCTACACC
CAGTTTCTGGAGCAGTTCCAATCAGTGAGTTATGGAGATCCAATATTTGCTGCCTGTGTT
TTGGTTCCATTGGCCCAGAGACATAATGTAAAATGGCGAAAATTATTATGGTCGGAATAT
GCGGGTTGCTTAAGGGCCTTAGACTGCCCGGAGAGATTTTTATGTTATGAGTTAAATGAA
TATTTGTGTCCAGAGGAATCAGATGAATCTCTTATAAAATCGTATTTCAGAGCCCTTTCT
AGTAACTTACTAAGAAATAACACACTCGCTTATAGAATAGCTAATCATCATGTTAATAGC
TATAAAAAACGAATGAACAAGTAA

Protein sequence:

MIRRPKKGENEEDLLRMQEEFLREKNAPSAQVVNLRKTEHQTTKRTNSSTSDRKLSKYAK
SKGLQNSEKRTKVDNSTGSLFGDIMEKNVSEEPQPERTEFEDDKVYYPKVLPFVLGDIVE
KSNDDILSLDFKMTPQGFPAAIKNDLKLKPIPKKGSLPFKKLGDIEEEKMDIDSSSDHHA
SNTSKLNIPNKSYILNSNEANAIHSENVNTLSKMTEEQILSEQHKLLSSLDPKLVDFIKS
VRKPSNTDHIQLENQSQNQLMDVSEPKQEETEKVVQENDPVNNDTLWESDVLSHPHINQW
IHFNDLEKEKLEWMKGIEESKKLKPNEPFEARFDFKGYLLPYTMEYTEETKTLFHHGEEP
HRPGYSITELIELSRSTIIQQRVMALNTIAELLEYYISGFYKDVIEIPLSKLFFVIRIAM
DENKTILLQAALKAMRNLLYNRIDEACLDALLGFEEGSYQPCLENDKSEISEIESEESEL
KDFHLAEIDLLSAVLRTDILQRLYYILECVRPSFNCVQYSLQILTRISRDSIEAAQTIVN
IEHLMTSIIQNFVPTTSINFSFGPNIVYSGKPIMAALKLIRILSLQNKDIGEILITKYNI
LEPLSEYIRSGVDGTYGLRLQVEAFSILSNLINYGLGVDKAFSLFPIIITTIYKHVQGTD
IFISSSIISAQHAAVVLQLLNKMFNCKMINSDNYKEQAYPLLKEGLQKWLMQTAAMDEYT
CGHLRLLCSALDCCKTVLINEKVTLKFLNDSLTTFAGSKGFKNIIKNLIPSSNLVSNIDE
NDLNYFKNLVSLGGSIIDSTQKVLPVLNILSPIPVLVSLFKLLNIINDINISKLFLEQLT
EYLTKLSKKEPSLCNNWFTRMEIDFVFNIIKLYTKTNTSESSKDLIYSVASTLCYILRVD
KKLELDYLFNNIIYNKDWFSAERLLNIISLSEEDGIGEVLVNVDDIKACYTKVINANKIE
TSGNIVLNEWRDPVLPRDWIYLPILSLYSSSQTTTSPEVIGEHATRVKQQIAAEKEMLVK
CSLEWIVFNEICFPDLLKDIDITDRFCRVMCVYLCDNSLFLDKTIQMLLKKCTQLLFKKG
SEFNFDKQLTGLNNFQDFYTQFLEQFQSVSYGDPIFAACVLVPLAQRHNVKWRKLLWSEY
AGCLRALDCPERFLCYELNEYLCPEESDESLIKSYFRALSSNLLRNNTLAYRIANHHVNS
YKKRMNK