MonarchBase - Protein-coding gene

DPGLEAN15450 in OGS1.0

New model in OGS2.0	DPOGS206880
Genomic Position	scaffold1:- 1687236-1694893
	See gene structure
CDS Length	2784
Paired RNAseq reads	1124
Single RNAseq reads	2727
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA014201 (0.0)
Best Drosophila hit	CG8665 (0.0)
Best Human hit	probable 10-formyltetrahydrofolate dehydrogenase ALDH1L2 precursor (0.0)
Best NR hit (blastp)	PREDICTED: similar to aldehyde dehydrogenase [Tribolium castaneum] (0.0)
Best NR hit (blastx)	PREDICTED: similar to aldehyde dehydrogenase [Tribolium castaneum] (0.0)
GeneOntology terms	GO:0016155 formyltetrahydrofolate dehydrogenase activity GO:0009058 biosynthetic process GO:0006730 one-carbon metabolic process GO:0048037 cofactor binding GO:0016742 hydroxymethyl-, formyl- and related transferase activity GO:0009258 10-formyltetrahydrofolate catabolic process GO:0005737 cytoplasm GO:0000036 acyl carrier activity GO:0055114 oxidation reduction
InterPro families	IPR002376 Formyl transferase, N-terminal IPR005793 Formyl transferase, C-terminal IPR009081 Acyl carrier protein-like IPR016162 Aldehyde dehydrogenase, N-terminal IPR016163 Aldehyde dehydrogenase, C-terminal IPR016160 Aldehyde dehydrogenase, conserved site IPR015590 Aldehyde dehydrogenase domain IPR006163 Phosphopantetheine-binding IPR016161 Aldehyde/histidinol dehydrogenase IPR011034 Formyl transferase, C-terminal-like
Orthology group	MCL12441

Nucleotide sequence:

ATGCCACCAGTAGCTGTGCCCGAGGAGCCTTCCAAGAAAAAGCTCCGTGTAGCCATAATA
GGTCAGAGTACTTTCGCTGCTGAGGTGTTCAAATTACTACAGAGAGATGGTCATGAAGTG
GTCGGTGTATTCACAGTACTCGATAAAGGAAATCGAGAAGACCCGTTGGCCACGATCGCA
GCCCAGAACGGTAAACCAGTGTTCAAATACAAGACGTGGAGGGTGAAAGGACAAGTTATA
CCGGGAATATTAGAGGAGTACAAATCTGTAAACGCCGACATCAACGTTCTACCGTTCTGT
ACTCAATTTATTCCCATGGAAGTTATTCTGCATCCGAAATATCAGAGTATCTGCTACCAT
CCCAGCATCTTACCTAGGCATAGAGGAGCGTCGTCTATCAATTGGACCCTTATCGAAGGT
GACACCACCTGCGGTCTCACTATCTTCTGGGCAGATGACGGCTTGGACACTGGGCCCATT
TTACTACAGAGAAGTTTTCCTTGCACTATTGATGACACTGTTGACTCACTGTACAATAAA
TATTTATATCCTGAGGGCATCAAAGCATTGGCAGAATCTGTGAATATGGTGGCTAATGGA
GTAGCTCCGCGGATAAAACAAACCGAAGAGGGAGCTACATACGATCCAGCACTCTTTAAA
CCAGAAACACATCAGATTGATTGGTCTAAAGGTGGTCTCGCTTTACACAATTTTATACGT
GGTCTGGATTCATCCCCTGGCGCTACCACCTTCATAAAACCACAAAACAAAGACGGCGTT
GATAAAACCAGTGATGCCAACATTGAAATTAAGTTCTTTGGTTCCTCATTGTGGGAAGCG
GAGTACGAAACAGAGGGTGATAAATTATTTATCACAGGATTAAACAAACCAGCCGTGGTA
CACGCTGATGGTTTATTAATAACAGCTAATGATGGAATTAAGCTTAACATTCAGAGGTTG
AAAGTAAACGGTAAGATGATTAATGCCCAAAACTTTTATAAAGGCAGTGAGAACAAAGTC
TCCCTTGATTTAACTGCGGAAGAGAAACAGTTCATAGAAAAAGCACGTGATGTTTGGAAA
GCAATATTAAGAATCGAAATAGAAAACGATACTGACTTCTTCGCTTCTGGAGCAGGCTCC
ATGGACGTTGTCAGATTAGTAGAAGAAATAAAGGATATATCAGAACTCGAATTACAAAAT
GAAGATATTTACATGAACACAACATTTGAAGATTTTTATAATGCAGCTATACTTAAACAA
AGAGGTGGTTCAGGTAGCAAGGAAGTTATTTACGACGGGGTAGAGATGGAAATTAATAAA
ATGAAAATTAAATTTCCGACGCAACTATTCATCAATGGAGAATTCGTTAATTCTGACGGC
GGAAAAACAACAGCTATAGTAAATCCCACAGATGAATCTGTTATATGCAAAGTTCAAGCT
GCCACAGTATCTGATGTCGACAGGGCTGTTAAAGCTGCTGAGAAGGCCTTCGGAGAAGGA
GAATGGTCCAAAATCAGCGCAAGGGAAAGAGGACAGTTATTATTCAAGTTGGCGGATCTA
ATGGAGCAGCATAAAGAAGAATTAGCCACAATCGAGTCAATAGATTCAGGAGCAGTTTAC
ACTCTAGCACTAAAAACTCACGTGGGCATGTCCATCGAGACATGGAGATATTTCGCCGGC
TGGTGTGACAAGATTACAGGTTCAACCATTCCTATTAGCCATGCAAGACCAAATAAAAAT
CTGACGTTGACAAAAAGAGAACCCATTGGTGTCTGCGGACTGATCACTCCTTGGAATTAT
CCATTGATGATGTTATCCTGGAAAATGGCCGCTTGCTTGGCAGCTGGCAACACTGTCGTT
ATGAAACCAGCAGCGGTATGCCCACTCACCGCACTCAAATTCGCTGAGTTGTGCGTGCTA
GCCGGCATTCCACCGGGAGTTGTTAATATTGTAACGGGAAGCGGAGCCCTGGCAGGACAA
GCCCTTGCTGATCATCCTCGTATCAGGAAGCTTGGATTTACTGGCAGTACTGAAATTGGA
CAAACTATTATGAAGTCTTGTGCAGCATCAAATTTGAAAAAGGTGTCCTTAGAACTGGGA
GGCAAATCTCCATTGATCATCTTTGAAGATTGTGATCTCGATAAAGCAGTTAAAAATGGT
ATGGCATCAGTATTTTTCAACAAGGGTGAGAATTGCATAGCAGCCGGTCGTTTATTCGTG
GAAGAGAAAATACACGACGAGTTTGTTAGACGTGTTGTGGAAGAAACCAAGAAAATGAGC
ATCGGAGATCCATTAAACAGAGGAACTGCTCATGGCCCACAAAACCACAAAGCCCATATG
GATAAACTTATATCGTACGTTGAGACAGGAGTAAAGGAAGGCGCAAAACTGGTTTACGGT
GGAAAACGCCTAGATAGACCAGGATACTTCTTCCAACCGACTATATTTACTGATGTCACC
GATAATATGGTCATTGCTAAAGAGGAATCTTTTGGACCCATTATGATCATTAGCAAATTT
AGCAGCAATAACCTGGATGAAGTGATCCGTCGTGCAAACAACACTGAATATGGGCTAGCG
AGCGGCGTATTCACGAAAGACGTTTCACGTGCACTGCGCGTCGCTGAGCGCGTGGAGGCT
GGTACCGTCTTCGTGAACACATACAATAAGACCGATGTCGCGGCGCCGTTCGGCGGATTC
AAACAGAGTGGTTTTGGAAAGGATCTAGGTCAAGAAGCTCTTAATGAATACCTCAAGACT
AAATGTATTACTATAGAATATTGA

Protein sequence:

MPPVAVPEEPSKKKLRVAIIGQSTFAAEVFKLLQRDGHEVVGVFTVLDKGNREDPLATIA
AQNGKPVFKYKTWRVKGQVIPGILEEYKSVNADINVLPFCTQFIPMEVILHPKYQSICYH
PSILPRHRGASSINWTLIEGDTTCGLTIFWADDGLDTGPILLQRSFPCTIDDTVDSLYNK
YLYPEGIKALAESVNMVANGVAPRIKQTEEGATYDPALFKPETHQIDWSKGGLALHNFIR
GLDSSPGATTFIKPQNKDGVDKTSDANIEIKFFGSSLWEAEYETEGDKLFITGLNKPAVV
HADGLLITANDGIKLNIQRLKVNGKMINAQNFYKGSENKVSLDLTAEEKQFIEKARDVWK
AILRIEIENDTDFFASGAGSMDVVRLVEEIKDISELELQNEDIYMNTTFEDFYNAAILKQ
RGGSGSKEVIYDGVEMEINKMKIKFPTQLFINGEFVNSDGGKTTAIVNPTDESVICKVQA
ATVSDVDRAVKAAEKAFGEGEWSKISARERGQLLFKLADLMEQHKEELATIESIDSGAVY
TLALKTHVGMSIETWRYFAGWCDKITGSTIPISHARPNKNLTLTKREPIGVCGLITPWNY
PLMMLSWKMAACLAAGNTVVMKPAAVCPLTALKFAELCVLAGIPPGVVNIVTGSGALAGQ
ALADHPRIRKLGFTGSTEIGQTIMKSCAASNLKKVSLELGGKSPLIIFEDCDLDKAVKNG
MASVFFNKGENCIAAGRLFVEEKIHDEFVRRVVEETKKMSIGDPLNRGTAHGPQNHKAHM
DKLISYVETGVKEGAKLVYGGKRLDRPGYFFQPTIFTDVTDNMVIAKEESFGPIMIISKF
SSNNLDEVIRRANNTEYGLASGVFTKDVSRALRVAERVEAGTVFVNTYNKTDVAAPFGGF
KQSGFGKDLGQEALNEYLKTKCITIEY