MonarchBase - Protein-coding gene

DPGLEAN08383 in OGS1.0

New model in OGS2.0	DPOGS214809
Genomic Position	scaffold806:- 40416-44089
	See gene structure
CDS Length	1821
Paired RNAseq reads	1526
Single RNAseq reads	4137
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA012116 (0.0)
Best Drosophila hit	Smt3 activating enzyme 2 (4e-159)
Best Human hit	SUMO-activating enzyme subunit 2 (9e-159)
Best NR hit (blastp)	ubiquitin-activating enzyme E1 [Aedes aegypti] (0.0)
Best NR hit (blastx)	ubiquitin-activating enzyme E1 [Aedes aegypti] (0.0)
GeneOntology terms	GO:0016925 protein sumoylation GO:0019948 SUMO activating enzyme activity
InterPro families	IPR009036 Molybdenum cofactor biosynthesis, MoeB IPR016040 NAD(P)-binding domain IPR023280 Ubiquitin-like 1 activating enzyme, catalytic cysteine domain IPR000594 UBA/THIF-type NAD/FAD binding fold IPR000127 Ubiquitin-activating enzyme repeat IPR019572 Ubiquitin-activating enzyme IPR018074 Ubiquitin-activating enzyme, E1, active site
Orthology group	MCL13355

Nucleotide sequence:

ATGGTTGCGAGAGTAGCTGGTGTGTTTGACGAAAAGCTTACTGAAGCCATTGCAAATTCT
AAAATCTTAGTAGTCGGTGCCGGCGGTATAGGTTGTGAAATATTAAAGAATCTCGTTTTG
ACAGGATTCCCTCAAATTGAAATCATCGACCTTGATACAATCGACGTAAGCAATCTAAAT
AGACAATTTTTGTTTCACAAAGAGCATGTGGGGAAATCAAAGGCACAGGTGGCCAAAGAC
AGTGCACTCAGTTTCAATCCCAACGTAAATATAGTTGCACATCATGACAGTGTTATTAGT
AATGACTATGGGGTGAGTTATTTCAAGCAGTTCAATATTGTCCTGAATGCCTTGGATAAC
CGTGTTGCCAGAAATCATGTCAACAGAATGTGTCTTGCTGCAAACGTTCCTCTTATTGAA
ACGGGAACAGCTGGTTACGCTGGACAGGTGGAGCTTATAAAGAAGGGTGTGACACAGTGT
TACGAATGCCAACCGAAGGCTCCACAAAAATCCTTCCCAGGTTGCACTATAAGGAACACC
CCGTCTGAACCGATCCACTGCATTGTATGGGCCAAGCATCTTTTCAATCAACTGTTTGGT
GAAGAGGACCCTGACCAGGATGTCAGTCCCGATACAGCTGACCCAGAAGCTGCGGGGGAT
GCAGGTTCAACTGCTCTAACATCAGAGAGCAGCTCAGGAAACGTTGAGAGGAAAAGTACA
AGAACATGGGCCGCGGAAACCAATTATGATCCAGAAAAGTTATTTGCTAAGTTATTTGGT
GATGATATCCGGTACCTGCTGTCAATGGAGAATCTGTGGAAGAAACGCAGGCCACCCACA
CCGTTATCCTGGGATAGCTTACCAGGGAAAGATAATATAGAAATACAACATTCAGGGTTG
CCAGATCAAAGAGTGTGGTCTGTGTATGAATGTGCTCAGGTATTTGCTGCCAGTTGCAAA
GCTCTTCAAACAGATCTTAAAAGTCGTCCTGAAGGTGATCATCTGGTTTGGGATAAAGAT
GAAAAGAGTGCTATGGACTTTGTCACTGCCTGTGCTAATATCAGATCACATATTTTCAAT
ATTCCACTCAAATCACGATTTGAAATTAAATCTATGGCTGGTAATATAATACCAGCAATT
GCCACAGCTAATGCAATCGTGGCGGGTTTGGCAGTATTACGCGCGCAGGCGTTACTAAAA
GGAGAGCTTGAAACTTGTACTAGTGTTTATCTAAGACCTAAAGTCAACCACCGCGGACAA
CTATTTGTACCCGAAAAAACTTTAACACCACCAAATCCTAAATGTTATGTGTGTTCTCCG
AAACCGGAAGTAGCATTAGCCTGTAACCTGAAACATCTTACACTTAAAGACCTCAATACG
GCGTTCAAAGAAGGTCTTAACATGCAGGCTCCTGACGCTACAGTGGAAGGCAAAGGTCTT
GTTGTACTCTCATCTGAGCCGGGCGAAACTGATCACAACAACGAAAAGACTTTAGAAGAA
ATCGGTCTAAACGACGGCTGTGCCTTACTGGTCGACGATTTCCTGCAAAACTACGAAGTA
CGAGTGCGCCTGCAGCAGGAGGACGAGGAAAAAACATGGCGCTTAGTTACAGACGCAGAT
TCGCCAATGCTCGGCCCGAAAGAGGAAAAGACCGCCAACGGTTCGAGCGGTTCCGAACCG
AAACCCGGCCCGTCACGCTCCAAGGAAGACAGCGATAGTGACATGGAAATTATCGAGGAG
GACGATGACGGTGAACCGAAACCGAAACCGCCAAAACGTAGGCGAACCGAAATGACCGAT
GAAGTAGTCGAACTCTGCTAG

Protein sequence:

MVARVAGVFDEKLTEAIANSKILVVGAGGIGCEILKNLVLTGFPQIEIIDLDTIDVSNLN
RQFLFHKEHVGKSKAQVAKDSALSFNPNVNIVAHHDSVISNDYGVSYFKQFNIVLNALDN
RVARNHVNRMCLAANVPLIETGTAGYAGQVELIKKGVTQCYECQPKAPQKSFPGCTIRNT
PSEPIHCIVWAKHLFNQLFGEEDPDQDVSPDTADPEAAGDAGSTALTSESSSGNVERKST
RTWAAETNYDPEKLFAKLFGDDIRYLLSMENLWKKRRPPTPLSWDSLPGKDNIEIQHSGL
PDQRVWSVYECAQVFAASCKALQTDLKSRPEGDHLVWDKDEKSAMDFVTACANIRSHIFN
IPLKSRFEIKSMAGNIIPAIATANAIVAGLAVLRAQALLKGELETCTSVYLRPKVNHRGQ
LFVPEKTLTPPNPKCYVCSPKPEVALACNLKHLTLKDLNTAFKEGLNMQAPDATVEGKGL
VVLSSEPGETDHNNEKTLEEIGLNDGCALLVDDFLQNYEVRVRLQQEDEEKTWRLVTDAD
SPMLGPKEEKTANGSSGSEPKPGPSRSKEDSDSDMEIIEEDDDGEPKPKPPKRRRTEMTD
EVVELC