MonarchBase - Protein-coding gene

DPGLEAN15172 in OGS1.0

New model in OGS2.0	DPOGS207185
Genomic Position	scaffold7:- 334281-342930
	See gene structure
CDS Length	1596
Paired RNAseq reads	8
Single RNAseq reads	24
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA000642 (0.0)
Best Drosophila hit	tryptophan hydroxylase (0.0)
Best Human hit	tryptophan 5-hydroxylase 1 (2e-150)
Best NR hit (blastp)	AGAP006020-PA [Anopheles gambiae str. PEST] (0.0)
Best NR hit (blastx)	PREDICTED: similar to AGAP006020-PA [Tribolium castaneum] (0.0)
GeneOntology terms	GO:0006568 tryptophan metabolic process GO:0004510 tryptophan 5-monooxygenase activity GO:0055114 oxidation reduction GO:0005506 iron ion binding GO:0004505 phenylalanine 4-monooxygenase activity GO:0042427 serotonin biosynthetic process GO:0045187 regulation of circadian sleep/wake cycle, sleep
InterPro families	IPR005963 Tryptophan 5-monooxygenase IPR019773 Tyrosine 3-monooxygenase-like IPR019774 Aromatic amino acid hydroxylase, C-terminal IPR002912 Amino acid-binding ACT IPR001273 Aromatic amino acid hydroxylase IPR018301 Aromatic amino acid hydroxylase, iron/copper binding site
Orthology group	MCL11622

Nucleotide sequence:

ATGAGTGGATCTGGAAAAGGCCTTCTTGGTTTGTGGTTATACAGAAATGGATCTGATTGG
CAAGTCAAGAATGAGGCTCCTCATCATCCGAAATTTGCTGATCTTCATTCTGCAACTCAG
AGACAAGCGCAAGATGAGATCATATCTGTGATATTTACCGTAAAAAACCAAGTAGGAGGG
TTGGTAAAAGTTTTGTCAGTTTTTCAAGATCTCGGAGTTAATGTTATTCATATAGAATCG
AGGAAATCAGCGACGGAATTATCTTCCTCCGATATCTTGGTGGATGTAGAATGTGACCCG
CGAAGAATGGAACAGCTGAAGCGAATGTTGAAGCGTGAAGTGCAAGATTTTGAGGTAGTT
GCTGCACAATCTGATGAAAAATTTCCACCACCAACACCTCTGTCTGCTGCAGCCAGCTTC
GATTTTGGTGAGATGCCATGGTTTCCAAGAAAAATCTCTGACTTGGATCGCGCGCAAAAT
GTTCTTATGTATGGGTCTGAGCTCGACGCTGATCATCCTGGTTTTAAGGATCCAGTTTAC
CGTAAGCGACGAGAACAATTTGCTGCGATTGCTAACAATTATAAATACGGACAGCCAATT
CCCAAAGTGCAATATACTGAAGTTGAAATTAAAACCTGGGGAGTCGTATTTAGCGAATTG
CATAAATTGTATCAGAAACATGCGTGCGCAGAATATTTGGAAAACTGGCCGCAACTCGTC
AAATACTGTGGTTACAGAGAAGACAACTTGCCCCAGTTGGAGGACGTAAGTTCTTTTCTG
AAACGAAAAACTGGCTTCCAACTGCGTCCTGTGGCTGGTTATTTATCACCTCGAGACTTT
CTCTCCGGACTTGCTTTTAGAGTTTTTCATTGTACTCAGTATATACGTCATTCTTCAGAC
CCGTTTTATACTCCCGAGCCTGATTGCTGTCACGAGTTGCTCGGACACATGCCATTACTG
GCAAATCCATCATTTGCGCAGTTCTCTCAGGAACTGGGTCTAGCTTCCCTTGGAGCATCT
GATGAAGATATTGATAAATTGGCAACGCTCTACTTTTTTACCGTTGAGTTCGGTTTATGT
CGTCAATTGGATGGTAGTTATCGAGTATACGGTGCGGGGCTTCTTTCCTCCGTTGCCGAA
CTACAGCATGCCCTGTCAACCCCCGAAAAGATTAAACGATTTGACCCAGATATTACCGTC
AATGAAGAATGTATTATTACTTCATACCAAAACGCATACTACTATACTGATTCATTTGAG
GAAGCCAAGGAAAAAATGAGGCAATATCCGGCATTTGCGGATAGTATCCAGCGCCCCTTT
GGTGTCCGTTACAATCCATACACTCAAAGCGTAGAGGTATTGAGCAATGCCCAGAAAATA
ACAGCATTGGTACGGGAGCTAAGAGGTGACATCTGTATTGTGTCATCTGCTATAAAGAAA
ATAAGTGCCCAAGACTCAACACTTGATGTTGAAACTATCGCTAACATGCTGCATACTGGA
CTACAGGTAAATGAAAGGAGTCCTCAAAGCTTATCCGGAGGTAGTTCGCCAAATTCAGAA
CGCGGTCTATCTCCCAAACCAGAAGAAACAGCATAA

Protein sequence:

MSGSGKGLLGLWLYRNGSDWQVKNEAPHHPKFADLHSATQRQAQDEIISVIFTVKNQVGG
LVKVLSVFQDLGVNVIHIESRKSATELSSSDILVDVECDPRRMEQLKRMLKREVQDFEVV
AAQSDEKFPPPTPLSAAASFDFGEMPWFPRKISDLDRAQNVLMYGSELDADHPGFKDPVY
RKRREQFAAIANNYKYGQPIPKVQYTEVEIKTWGVVFSELHKLYQKHACAEYLENWPQLV
KYCGYREDNLPQLEDVSSFLKRKTGFQLRPVAGYLSPRDFLSGLAFRVFHCTQYIRHSSD
PFYTPEPDCCHELLGHMPLLANPSFAQFSQELGLASLGASDEDIDKLATLYFFTVEFGLC
RQLDGSYRVYGAGLLSSVAELQHALSTPEKIKRFDPDITVNEECIITSYQNAYYYTDSFE
EAKEKMRQYPAFADSIQRPFGVRYNPYTQSVEVLSNAQKITALVRELRGDICIVSSAIKK
ISAQDSTLDVETIANMLHTGLQVNERSPQSLSGGSSPNSERGLSPKPEETA