MonarchBase - Protein-coding gene

DPGLEAN00056 in OGS1.0

New model in OGS2.0	DPOGS207441
Genomic Position	scaffold130:+ 78178-83536
	See gene structure
CDS Length	3135
Paired RNAseq reads	17969
Single RNAseq reads	44223
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA009911 (0.0)
Best Drosophila hit	ubiquitin activating enzyme 1 (0.0)
Best Human hit	ubiquitin-like modifier-activating enzyme 1 (0.0)
Best NR hit (blastp)	hypothetical protein TcasGA2_TC011512 [Tribolium castaneum] (0.0)
Best NR hit (blastx)	PREDICTED: similar to ubiquitin-activating enzyme E1 [Tribolium castaneum] (0.0)
GeneOntology terms	GO:0003824 catalytic activity GO:0006464 protein modification process GO:0008641 small protein activating enzyme activity GO:0005488 binding GO:0005524 ATP binding GO:0008152 metabolic process GO:0016874 ligase activity GO:0000166 nucleotide binding
InterPro families	IPR018074 Ubiquitin-activating enzyme, E1, active site IPR018075 Ubiquitin-activating enzyme, E1 IPR009036 Molybdenum cofactor biosynthesis, MoeB IPR000011 Ubiquitin/SUMO-activating enzyme E1 IPR016040 NAD(P)-binding domain IPR023280 Ubiquitin-like 1 activating enzyme, catalytic cysteine domain IPR000594 UBA/THIF-type NAD/FAD binding fold IPR018965 Ubiquitin-activating enzyme e1, C-terminal IPR000127 Ubiquitin-activating enzyme repeat IPR019572 Ubiquitin-activating enzyme
Orthology group	MCL10514

Nucleotide sequence:

ATGTCTAGTGCTGAAGTCGCCGATAATTCCGTTGACCCCCCGGCGAAAAAGCGGAAGCTA
AACACAGGAGAGGCGAGTTGCAAATCCTCAGCAATGGCGAACAATGGAACGCGTGTAGAG
GATGAAATTGACGAGAGCTTATATTCACGACAGTTATACGTTCTCGGTCACGATGCTATG
CGCCGAATGGCAAATTCGGATGTTTTGATTTCTGGTCTCGGAGGTCTTGGTGTAGAAATT
GCCAAAAATGTGATACTTGGCGGAGTCAAGTCAGTAACACTTCATGATGCAAAAACCTGC
ACCATTGCTGATTTATCATCTCAGTTTTACCTCTCCGAGGCAGATATTGGTAAAAACAGA
GCAGAAGCATCCTGTGAACAGCTTTCAGAACTGAATCGCTATGTGCCGACTACATCATAT
ACCGGACCACTTACTGAGGAGTTTCTGAAGAAGTACCGTGTTGTAGTATTGACTGGCGCT
TCTTGGGAACAACAGGAGCAAGTTGCTGCTATAACACACGCTAACAATATAGCCTTAATC
ATTGCGGACACCCGGGGTCTGTTTTCTCAGGTTTTCTGTGATTTCGGACCCGAGTTCACG
GTGCTAGATGTGACTGGAGAGAACCCAGTATCAGCCATGATAGCTGACATTACCCATGAA
TATGAAGCTGTGGTGACATGCTTGGATGATACTCGTCATGGGCTGGAAGATGGAGATTAT
GTTACATTTAGCGAGATTCAAGGTATGTCTGAGTTAAACGGCTGTGAACCACGTAAGATT
AAGGTGCTGGGACCATACACCTTCAGTATTGGAGACACAACAAACTGCTCTAAGTATGTC
AGAGGCGGCATCGTCACCCAAGTGAAAATGCCCAAAAAACTTAGCTTCAAACCTCTGAAA
GAATCCATCAAGAATCCAGAGTTCCTGATTACTGATTTTGGTAAGATGGATTATCCTCAA
CAACTGCATGTAGGGTTTGCAGCCCTCCACAAGTTCCAAGCAGCTGAGGGTCGACTCCCC
AAACCTTGGTGTGACGCTGATGTCAGCAAGTTCATGGGTGTCGTGGAGAGTATTGTCCAA
GGCGAGGAATTGTTTAAAAAGGGTGAAATTGACATTAATAAGGAACTACTAGAAACATTC
TGCAAGGTCTCAGCTGGAGATCTTAATCCCATGAATGCTGCAATAGGAGGAGTGGTCGCT
CAGGAAGTAATGAAGGCCAGCTCGGGCAAGTTCCATCCTATAGTTCAGTGGCTGTACCTT
GATGCTATCGAGTGTCTTCCAAAAGACAGATCGGGTCTCAACGAGGAGTACTGTAAACCC
ATTGGCTGCAGATATGATGGCCAGATAGCAGTATTTGGACAGAATATCCAAAAGAAGATT
GGGGAGCTGAAGTATTTCATTGTGGGCGCGGGCGCCATCGGTTGTGAGTTGCTGAAGAAC
TTTGCCATGATGGGTGTGGGCGCTGCCGGCGGCGCCGTCACCGTTACGGATATGGATCTC
ATTGAGAAGTCTAACCTCAACCGCCAGTTCCTCTTCCGACCTCAAGACGTTCAGAAACCC
AAGTCCAGTACAGCTGCCAGGGTTATCAAACAAATGAATCCATCAATGAACGTAATAGCC
CAGGAGCACCGCGTGTGTCCCGAGACGGAGTGTGTATATGACGACGCGTTCTTTGAGGCC
CTGGACGGAGTGGCCAACGCCTTGGACAACGTGGACGCCAGGATATACATGGACCGGCGC
TGTGTGTACTACAGGAAACCCTTGTTGGAGAGTGGCACCCTCGGCACCAAGGGCAACACT
CAGGTGGTGGTTCCCTTCCTGACCGAGTCCTACAGCTCATCTCAAGACCCGCCTGAGAAG
AGCATCCCGATCTGTACCCTTAAGAACTTCCCCAACGCCATCGAGCACACTCTGCAGTGG
GCTCGGGACGAGTTCGAGGGTCTGTTCCGTCAGGCCGCGGAGCACGCCGCACAATACTTG
CGCGACCCACACTTCCTCGAGAGAACTATGAATCTACCGGGCAGCCAGCCGCTCGACGCT
CTGGAGAGTGTTCAGAACGCGATCGTGGACCGCCCCATGAACTTCGACGACTGCGTGACC
TGGGCCCGCATGCACTGGGAGGCTCAGTATTCCAACCAGATCAAACAGTTGCTATACAAC
TTCCCGCCCAAGCAGGTCACTTTACTGGGCGCCCCCTTCTGGTCTGGACCCAAACGGTGT
CCCTCACCTCTAGAATTCGACCCCGAAGATGAACTGCACATGGACTACATCGTGGCCGCC
GCCAACCTGAAGGCTCAGGTGTATGGCATACCGACGTGTGTGGACAGAGAGAGGATCGCT
AAAGTCGCCATGACTGTAGAGGTGCCTAAATTCAAACCGAAGTCGGGCGTCAAAATCGCA
GTAACGGATGCTCAGCTGCAACAGAGCGACGACAAAATGGACCAGGATAAGGTGGAGACC
ATAGTGGACAACTTGCCCCCGCCGAACAAACTCGGCAACCTTAAAATAACCCCGCTGGAG
TTCGAGAAAGATGACGACACCAACTTCCACATGGACTTCATCGTGGCCGCGTCCAACCTG
CGCGCCGCCAACTACAAGATCCCGCCCGCCGACAGACACCGCTCCAAGCTCATCGCCGGC
AAGATCATCCCCGCCATCGCCACCACCACATCCGTGGTCGCCGGCCTCGTCTGCCTCGAG
CTGTACAAGCTCGCCCAGGGCTTCAACACTCTAGAAGTCTTCAAGAACGGCTTCGTCAAC
TTGGCCTTACCGTTCTTCGGGTTCTCCGAGCCGATCGCCGCGCCCACCAACACGTACTAC
GACAAAAAATGGACGCTCTGGGACAGGTTCGAGGTGAAGGGGGAGATCACGTTACAGGAG
TTCATAGATTACTTCAAAAACGAGCACAAACTGGATATCACGATGCTGTCCCAGGGCGTG
TGCATGCTGTACTCGTTCTTCATGCTGAAAGCCAAACGCCAGGAGCGCCTCAACCTGCCG
ATGTCCGAAGTGGTCATGAAGGTGTCCAAGAAGAAGCTTGAGCCGCACGTGAAGGCGCTG
GTGTTCGAGCTGTGCTGCAACGACGAGGACGACAACGACATCGAGGTGCCGTACGTCAAG
TACACGCTGCCCTAA

Protein sequence:

MSSAEVADNSVDPPAKKRKLNTGEASCKSSAMANNGTRVEDEIDESLYSRQLYVLGHDAM
RRMANSDVLISGLGGLGVEIAKNVILGGVKSVTLHDAKTCTIADLSSQFYLSEADIGKNR
AEASCEQLSELNRYVPTTSYTGPLTEEFLKKYRVVVLTGASWEQQEQVAAITHANNIALI
IADTRGLFSQVFCDFGPEFTVLDVTGENPVSAMIADITHEYEAVVTCLDDTRHGLEDGDY
VTFSEIQGMSELNGCEPRKIKVLGPYTFSIGDTTNCSKYVRGGIVTQVKMPKKLSFKPLK
ESIKNPEFLITDFGKMDYPQQLHVGFAALHKFQAAEGRLPKPWCDADVSKFMGVVESIVQ
GEELFKKGEIDINKELLETFCKVSAGDLNPMNAAIGGVVAQEVMKASSGKFHPIVQWLYL
DAIECLPKDRSGLNEEYCKPIGCRYDGQIAVFGQNIQKKIGELKYFIVGAGAIGCELLKN
FAMMGVGAAGGAVTVTDMDLIEKSNLNRQFLFRPQDVQKPKSSTAARVIKQMNPSMNVIA
QEHRVCPETECVYDDAFFEALDGVANALDNVDARIYMDRRCVYYRKPLLESGTLGTKGNT
QVVVPFLTESYSSSQDPPEKSIPICTLKNFPNAIEHTLQWARDEFEGLFRQAAEHAAQYL
RDPHFLERTMNLPGSQPLDALESVQNAIVDRPMNFDDCVTWARMHWEAQYSNQIKQLLYN
FPPKQVTLLGAPFWSGPKRCPSPLEFDPEDELHMDYIVAAANLKAQVYGIPTCVDRERIA
KVAMTVEVPKFKPKSGVKIAVTDAQLQQSDDKMDQDKVETIVDNLPPPNKLGNLKITPLE
FEKDDDTNFHMDFIVAASNLRAANYKIPPADRHRSKLIAGKIIPAIATTTSVVAGLVCLE
LYKLAQGFNTLEVFKNGFVNLALPFFGFSEPIAAPTNTYYDKKWTLWDRFEVKGEITLQE
FIDYFKNEHKLDITMLSQGVCMLYSFFMLKAKRQERLNLPMSEVVMKVSKKKLEPHVKAL
VFELCCNDEDDNDIEVPYVKYTLP