MonarchBase - Protein-coding gene

DPOGS212105
Transcript	DPOGS212105-TA	1560 bp
Protein	DPOGS212105-PA	519 aa
Genomic position	DPSCF300038 - 597016-599837
RNAseq coverage	653x (Rank: top 20%)

Annotation
*Heliconius*	HMEL012538	0.0	90.75%
*Bombyx*	BGIBMGA006606-TA	0.0	87.69%
*Drosophila*	CG9629-PA	2e-178	55.71%
EBI UniRef50	UniRef50_P49419	0.0	61.84%	Alpha-aminoadipic semialdehyde dehydrogenase n=53 Tax=Coelomata RepID=AL7A1_HUMAN
NCBI RefSeq	XP_969882.1	0.0	67.45%	PREDICTED: similar to aldehyde dehydrogenase 7 family, member A1 [Tribolium castaneum]
NCBI nr blastp	gi\|91095113	0.0	67.45%	PREDICTED: similar to aldehyde dehydrogenase 7 family, member A1 [Tribolium castaneum]
NCBI nr blastx	gi\|91095113	0.0	67.58%	PREDICTED: similar to aldehyde dehydrogenase 7 family, member A1 [Tribolium castaneum]

Group
Gene Ontology	GO:0008152	2.6e-126	metabolic process
	GO:0055114	2.6e-126	oxidation-reduction process
	GO:0016491	2.6e-126	oxidoreductase activity
	GO:0016620	1.9e-51	oxidoreductase activity, acting on the aldehyde or oxo group of donors, NAD or NADP as acceptor
KEGG pathway	tca:658395	0.0
	K00128 (E1.2.1.3)	maps->	1,2-Dichloroethane degradation
			Arginine and proline metabolism
			Glycolysis / Gluconeogenesis
			Propanoate metabolism
			Limonene and pinene degradation
			Tryptophan metabolism
			Lysine degradation
			Valine, leucine and isoleucine degradation
			Pyruvate metabolism
			beta-Alanine metabolism
			Fatty acid metabolism
			3-Chloroacrylic acid degradation
			Glycerolipid metabolism
			Ascorbate and aldarate metabolism
			Histidine metabolism
InterPro domain	[30-504] IPR016161	2.6e-126	Aldehyde/histidinol dehydrogenase
	[40-500] IPR015590	1.4e-121	Aldehyde dehydrogenase domain
	[31-285] IPR016162	1.2e-71	Aldehyde dehydrogenase, N-terminal
	[286-467] IPR016163	1.9e-51	Aldehyde dehydrogenase, C-terminal
Orthology group	MCL13654		Single-copy universal gene

Genotypes for resequenced monarchs and outgroup Danaus species

Nucleotide sequence:

>DPOGS212105-TA
ATGGCTAGAAACGCGTCCAGTTACCTCATCGAGGATCCAAAATATTCCTTTTTAAAAGATTTGGGGTTGGATAAAAAGAATGTGGGAGTTTTTAACGGAAAATGGGAAGCTAACGGCCCGATGATTCAAACTTTTAGTCCAGCCAACGGTAAAGTAATAGCAGAGGTGCAGGCGGCCAGTGTCGCAGATTATGAATCCTGTGCGAAGGCAGCTCAGGATGCGTGGCATGAATGGGCGGAAATGCCAGCACCAGCCCGGGGGGAAATCGTCAGACAAATAGGAGACGCCCTTAGAGAAAAGTTGCAGCCTTTAGGGCAATTAGTTTCTTTAGAAATGGGTAAAATTCTTCCCGAAGCAATAGGCGAAGTCGTCGAATATATCCACGTATGTGACTTAGCACTTGGTCTATCACGTTCACTCCCTGGGACGATTTTCCCATCGGAGCGGCCCGGTCACGTCCTTATTGAAAAATGGAATCCTCTCGGCGCCATCGGTATCATTACTGCTTTCAATTTTCCTGTTGCTGTTTTTGGATGGAACAGCGCTATCGCAATGGTATGCGGCGACGTCAGCGTGTGGAAGCCATCAGAAACCACGCCACTCATATCAGTGGCAGTGACCAAGATTGTAGAAAGTGTGCTCGTTAAAAACAACATTCCGGGGGCTGTAGCTGCGTTGTGTGTTGGCGGGAAGGATATAGGGCAAACATTAGTGAAAGATCACAGGATGAAGCTTGTCTCCTTCACAGGCAGCACAGCTGTCGGACAAGAGGTAGGTGTGGAAGTCCAAAGACGCTTCGGGCGTCACTTGTTGGAACTAGGAGGAAACAACGCTATCATCGTCAACGAGGACGCCAACCTTCAACTACTGCTGAATGCGGCGCTGTTCGCTTGCGCTGGGACCGCGGGTCAACGCTGCACTACCACAAGAAGACTTCTTATACATAAAAAAGTGTACTCCGAGGTAGTGTCTAAGCTAAAGAAGGCCTATGCTAGTGTTTTGAGTCGCATCGGGGATCCCCTGGAGTCCGAATCGCTAATTGGACCGCTCCACACACCAGCTGCCTTACAAGCCTATAAAGACACCGTCGCGGCTGCTGTTAAACAAGGAGGAACTATTGAATTCGGTGGAAAGGTGATCGAACGTGAGGGCTACTTTGTGGAGCCGACTATAATAACAGGGCTACCGCATGATTCTCCTCTGGTTAAGACTGAATGTTTCGCTCCCATCGTTTATTGTATAGAGATTCCTGATCTAGAAACTGGTATTCAATACAACAATGAAGTGGAGCAGGGTCTGTCATCAAGTCTTTTTACTGAAAATATGGGAAATGTTTTCAAGTGGATTGGTCCTCACGGATCGGATTGCGGCATCGTGAATGTAAATATACCAACCAACGGCGCGGAGGTAGGTGGAGCCTTCGGAGGTGAAAAGGCCACGGGCGGCGGCCGCGAGTGTGGCTCTGACTCCTGGAAGAACTATATGCGTCGCTCAACAGTCACTATCAACTACTCCGGAACCATCAAACTCGCACAGAACATCAAATTCGGCGACGACTAA

Protein sequence:

>DPOGS212105-PA
MARNASSYLIEDPKYSFLKDLGLDKKNVGVFNGKWEANGPMIQTFSPANGKVIAEVQAASVADYESCAKAAQDAWHEWAEMPAPARGEIVRQIGDALREKLQPLGQLVSLEMGKILPEAIGEVVEYIHVCDLALGLSRSLPGTIFPSERPGHVLIEKWNPLGAIGIITAFNFPVAVFGWNSAIAMVCGDVSVWKPSETTPLISVAVTKIVESVLVKNNIPGAVAALCVGGKDIGQTLVKDHRMKLVSFTGSTAVGQEVGVEVQRRFGRHLLELGGNNAIIVNEDANLQLLLNAALFACAGTAGQRCTTTRRLLIHKKVYSEVVSKLKKAYASVLSRIGDPLESESLIGPLHTPAALQAYKDTVAAAVKQGGTIEFGGKVIEREGYFVEPTIITGLPHDSPLVKTECFAPIVYCIEIPDLETGIQYNNEVEQGLSSSLFTENMGNVFKWIGPHGSDCGIVNVNIPTNGAEVGGAFGGEKATGGGRECGSDSWKNYMRRSTVTINYSGTIKLAQNIKFGDD-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: