MonarchBase - Protein-coding gene

DPGLEAN04251 in OGS1.0

New model in OGS2.0	DPOGS209785
Genomic Position	scaffold2881:+ 10651-12174
	See gene structure
CDS Length	1524
Paired RNAseq reads	4310
Single RNAseq reads	12518
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA008010 (0.0)
Best Drosophila hit	aminolevulinate synthase (3e-142)
Best Human hit	5-aminolevulinate synthase, erythroid-specific, mitochondrial isoform c precursor (2e-129)
Best NR hit (blastp)	hypothetical protein TcasGA2_TC013340 [Tribolium castaneum] (3e-160)
Best NR hit (blastx)	AGAP003184-PA [Anopheles gambiae str. PEST] (2e-156)
GeneOntology terms	GO:0003870 5-aminolevulinate synthase activity GO:0005739 mitochondrion GO:0005759 mitochondrial matrix GO:0006783 heme biosynthetic process GO:0016769 transferase activity, transferring nitrogenous groups GO:0030170 pyridoxal phosphate binding
InterPro families	IPR015424 Pyridoxal phosphate-dependent transferase, major domain IPR010961 Tetrapyrrole biosynthesis, 5-aminolevulinic acid synthase IPR004839 Aminotransferase, class I/classII IPR015421 Pyridoxal phosphate-dependent transferase, major region, subdomain 1 IPR015422 Pyridoxal phosphate-dependent transferase, major region, subdomain 2
Orthology group	MCL11708

Nucleotide sequence:

ATGCCCTGTCCGTTTTTAGGATCAATGAATCAAACCTTTTTAAGGAATTACAGCAGCGTA
CTGCTAAAGCAGTATGGAAACTACTGCCCTATACTTTCAAGAAACTTTCGCTCTCTGGGC
GTAGATGAAACGAAATGCCCATTTATTCAAAAGAACTCCATTATTTCGGAAGCGCCTAAA
GAAATGACTGAAGATATTGTAGACAGCGCTGCACCAACTTATCAATATGAAAATTTCTTT
AGCAAACAGATCAATGCTAAAAAAAATGATTACTCGTATCGAGTATTTAGAAAGGTGTCA
CGACTGGCGGCCGAGGGCGCGTATCCGCAGGCATTGGAAGGGTCTGACAACCGTCGCGTG
ACCGTGTGGTGCGCCAACGACTACCTCGGAGCATCGCGTCACCCCGTTGTCCAGGATGCT
GCAATTTCTGCCATTAGATCCTACGGAACCGGAGCGGGAGGCACTCGTAACATCGCTGGT
AACTCACAGATGACTGAAAAACTAGAACATGAGATAGCCAAACTCCATAAAAAACCCGCA
GCTTTAATATTTAGTTCCTGTTTCGTTGCCAATGATGCGACTCTCTCTACATTAGCGAAA
ATACTACCAGGATGTATCGTTTACTCCGACGCGGGTAACCATGCATCCATGATACAGGGT
ATAAGGAACAGCCGGGCTCCCAAACATATATTCAGGCACAACGACCCCACCCACCTTAGA
CAATTGTTAGCCGAATCTCCTGCGGGCGTACCGAAGCTAGTCGTATTTGAAACTGTGCAT
TCCATGAGTGGAGCGATATGTCCCTTAGAAGAAATGTGTAACATAGCCCACGAGTACGGC
GCCTTGACATTCGTAGACGAAGTCCACGCTGTGGGATTATATGGGAAGCATGGAGCAGGT
ATCGGGGAAGAGAGGGGAGTCGAAGATCATATAGACATCGTGTCCGGTACTTTGGGTAAA
GCGTACGGTAACGTTGGCGGATATATCGCGGGTTCATCACTCCTGATAGACACCGTTAGG
TCTCTGGCGCCTGGATTCATATTCACCACGGCGCTGCCGCCTCCGATCTTGGCCGGGTCT
TTAGCTGCGATAAGACTTCTAGCCAGCGAGGAAGGGAGATCGTTACGAGCGAAACATCAA
GCTATCGTCCGCTATCTCAAGCTCTCGCTTCTGATCGCTGGTCTGCCGCAGATGCCGTCA
GTGAGTCACATAGTCCCTGTACCCATCACCGGGGCGGACAAAGTGGCGTTGGTGGCGGAG
TCGCTGATGAAGCGAGGCCACTACGTGCAAGCCATCAACTATCCGACGGTAGCCCGAGGA
GAGGAGCGCCTACGTTTCGCTCCCGGCCCCTACCACACGCCGGGAATGATAGACAACCTC
GTCACTGCCCTCATCGAGTCATTCCACGAGAACAATATTAGCTTTAACCAGTTCATGGTC
AACGGAGCCTGCAGGGAATGCAGCATGGAGTATAAAGTAGACATCGCTTACGAGGAGCCC
TACAAGTACCCGATAGCTGTATAA

Protein sequence:

MPCPFLGSMNQTFLRNYSSVLLKQYGNYCPILSRNFRSLGVDETKCPFIQKNSIISEAPK
EMTEDIVDSAAPTYQYENFFSKQINAKKNDYSYRVFRKVSRLAAEGAYPQALEGSDNRRV
TVWCANDYLGASRHPVVQDAAISAIRSYGTGAGGTRNIAGNSQMTEKLEHEIAKLHKKPA
ALIFSSCFVANDATLSTLAKILPGCIVYSDAGNHASMIQGIRNSRAPKHIFRHNDPTHLR
QLLAESPAGVPKLVVFETVHSMSGAICPLEEMCNIAHEYGALTFVDEVHAVGLYGKHGAG
IGEERGVEDHIDIVSGTLGKAYGNVGGYIAGSSLLIDTVRSLAPGFIFTTALPPPILAGS
LAAIRLLASEEGRSLRAKHQAIVRYLKLSLLIAGLPQMPSVSHIVPVPITGADKVALVAE
SLMKRGHYVQAINYPTVARGEERLRFAPGPYHTPGMIDNLVTALIESFHENNISFNQFMV
NGACRECSMEYKVDIAYEEPYKYPIAV