MonarchBase - Protein-coding gene

DPOGS214976
Transcript	DPOGS214976-TA	4743 bp
Protein	DPOGS214976-PA	1580 aa
Genomic position	DPSCF300256 - 346311-359873
RNAseq coverage	78x (Rank: top 65%)

Annotation
*Heliconius*	HMEL014812	1e-76	57.27%
*Bombyx*	BGIBMGA012149-TA	2e-70	53.92%
*Drosophila*	CG6083-PA	2e-53	37.33%
EBI UniRef50	UniRef50_G9F9G3	5e-122	49.47%	Seminal fluid protein CSSFP011 isoform 2 (Fragment) n=2 Tax=Chilo suppressalis RepID=G9F9G3_9NEOP
NCBI RefSeq	XP_308086.3	4e-62	42.37%	AGAP011050-PA [Anopheles gambiae str. PEST]
NCBI nr blastp	gi\|364023573	2e-121	49.47%	seminal fluid protein CSSFP011 isoform 2 [Chilo suppressalis]
NCBI nr blastx	gi\|364023573	2e-115	41.75%	seminal fluid protein CSSFP011 isoform 2 [Chilo suppressalis]

Group
Gene Ontology	GO:0055114	1.7e-37	oxidation-reduction process
	GO:0016491	1.7e-37	oxidoreductase activity
KEGG pathway	aga:AgaP_AGAP011050	1e-61
	K00011 (E1.1.1.21, AKR1)	maps->	Galactose metabolism
			Glycerolipid metabolism
			Pentose and glucuronate interconversions
			Fructose and mannose metabolism
			Pyruvate metabolism
InterPro domain	[1076-1378] IPR001395	4.5e-97	Aldo/keto reductase
	[1078-1375] IPR023210	3.3e-82	NADP-dependent oxidoreductase domain
	[1110-1134] IPR020471	1.7e-37	Aldo/keto reductase subgroup
Orthology group

Nucleotide sequence:

>DPOGS214976-TA
ATGTCGCCAGTCCACCACAGTGTGCTGCTCAAGTTCTTCAAAGATACAACAAGCATGTCGGAGAAAAAAGAAGGAATAGAGTCGAGGGTGCCGAAAGAACAAGAGATGCGAGGGGATAAGGAGATCCGGGAGGAGATCGCTAGAGCTGGTGAGGTGGAGATGAAACACTTCAGTCAGGAGCCGGTGATCCAGGTGACGAGAGAGGAATCCTCCTTCGTGAAGGGAGATCTGAAGGTGGAGAAGCTGGTGGTCACAGAGGACATCGCGAATGGAACAACAACCAAACACATTGTGACTGTGACGGAATCCGGTGAAGCGAATGAGGAGCAAACTGAAATATACAGCGAAATGACTGCAAGGAAAACCGAGCGTGATGACCAGAGGCGAGAAGGTTTCCAGAGAACCGTGCACAGAGTGACGAGGATACCACAACTTAAATTTAAACACACGGTCGATAAGATAAAGAAGCAAGAGGAAATGATAAAGCAAGGGAGAGATGAGGTGAGCCTTGCACTTCGAGTGGCAGAGGTTGTACATGAAACAAAAAATGACAGATCCCATTTACAACAAATTGATAAGGTGCAGTCTCCAGATATGGAAGATGAATTTGATAAAATATATGACGAAATATGCGACGGTCCACCATCAGGTAACTTCCCGACACCTGGAAAAATTGACGACTCGGACGGATTAGACAACAAATTTGAAGAAATTATGAACAATTACGATAAGGTCGAAGAACAGAAAGAGCAGGCGGGTTCAGGAACAGTGAAAAGCAAAATACCTTTGTTGAAACGTAAAAGTGAACAAGACATAGACGTCACTAAATCTACTTTAAGAAGAAATTCCCTTAAGACATCAAGTTCTGTTGATGACACGAAGCATTTTATACGTAAGTTACCAGAACCAGTCACCACAGAAAGAAGAAAACAAGAAGAATCCATCGAGGGTAATACTGTGACGTCTTTAAATAGCGATACCTGGGTTCAGTCTGAGACCGTGTCGGTCAAGAAATTTGCTTCAACAAAAAAAGTCACAAGCGCCTCAGAAACAATATCCACACAACAGAGTCATGAACAGGCCTGTGACACAGAAAATAATTTGATAACACATCGATATATTACAGGTAGCAGAATTCCAAAGCATTTTAAAAATATAAACGGGAGAGAGAAAAAAAATGAGGACAACAAAACAAATAGAAGTGAAACGAAAGAGATCAAAACAACGACCATTAAAGATTACACGATAACGTTGAACATAAAAGACAGAATATCTAAGGTTGAAACAAAACCGAATATTATAGAAAATATTAAAATACTTGAGAATAACAACGAGATCACACAAAAAGACTTTCAACAAACAGAAGCTGAAGAACAATCACACACTGACAATACACAACCAGAAACAAGCAAAGTAGAAGCGACCTCACCGACTATAATGACTACTAATAAAGAAGATAGTAATGAGGTCGTTCCAGACAAATATTTCAGAGATTTAGATACAAAAAGATCTCAAGAGAAAGATTCGAATAATACGATAGTAGAGGAACCATCCAACAAGAACAGAAACAACAACGAAACGACATCCGTCTCTCCTCGTGAGTGTCACAGAGACAACACGTTAGAAATAAGACATGACACCACTGACATACAAGATGATGACCAACTCAAAGAGGCGGTTAATGTCGTCACGTTAGAATTTCCAAATCTTTTGATTTCTGCGTCTAAAAGTTTTTCAAACGATTGTCATAGAAATGTTTCGAGAACCCTCTCTAAAGAAACAACAGAAATAAAATACGAAGGTGAAGAAAAGGTCATGATATGTGATAAAAATGTTGTAAAAGTAATTAATCAAAGAACAGAACAAAACCACAAGGAGACAGAAGACAGAGAAGATAAGAGAGTTGGAAACAACATTAATCAAGAAAACTACTCCGCTGGTAAAGAATTTACCATCGAGACGAAAAAAGAATTCCAAGAGAGAGATATCACAGGCAATAAAGAGTATATAGTATCAAAATTTAAAAATAATGAAGAGAAAATAGAGGAAGAGTCACAGAGAAACATCACGACCCATGAACAAACAGAAAAAGAAATAAACATGGAAGAAAAATATAGAGAATTTTATATCAAAAAGTTACAAAACATGATTCCAGAGAAGTTAGAGGAGCTAGAGGAAGAAGACATCATTTTATTAAAGGGGAAAGTTAAGAGAGTCATGAAAAGACTGAATTCCAAAGAGTTCAGGAAGAGACAGACAGAGACTGGAGACCTGCCGACAGACGTGTCTGTGATTAATAAGATAGCGTTGTTTGAACAATCCAAAGATTGTTTGCGAAGAGACGGTTTAGAAGAAGAAGATAAAAAAGACAAAATACATTCAAACAAACCAAAGATAGTCGACGAAGTACTGAAGGCAGAGGACCCCGAGGCTAACGAAGACGAGAGGAGTAAGAGAAATGATTCAGTGAGAGAAGAGTCCACCTTCAGCTACAACGCGTTCCTCAACTACAAGAATACTATTAAGAGAGAAATTAGTGTTCAGGAGAATAAAGCGACAGGACGCGGGGCTAAGACAGAGTGCCATGAAAAATACGAGTATAACATAAACCTGAACAACTTCACGGACGATAAGAAAAATATACTGGAGAAGATAGAAGCGGCCGCGCTGAAAGATAACAAGAGCAAAGATATCTTAAAGGAATACAAGATAAACAAAGAAAAAGATTCAGAGACGAAGCGAGCGAAGGCTGAGGCCGACGTCAACTACCAGGGCGTCCGAGGGAGAGTCAGAGAGATGGTGATGAGGATGAACTCCACAGACAGGACGGCGCTGGAGAGAAGAGAAGGAGACAGGAGGAGACGGAGGCAGGGCGCGGTGGCGGAGGCTATAGCGCTGTTTGAGGTCAGCGAAGTCGCGGGAAACGGCTGTCAAGAAAAAAACCTTTGCATATTAATGGTATCAAAATACCTGGTCGCATTTTATAATGAGATGAGGGTAGGAGACGAGACCACTCGCCCCGGGACAGTCGCTGGAACACGTCGAGAACTCAGAGGTCTAACCATGTTGGTGTTTAAAAAGGTCCCAGCTGCGCGTCAGGAGTCTGTCGCTAACGCGAGCTCTCTAGCGAAGAAAGACGAGGCGCCGGTCCAGACAACGGAAGAGGAACTGCTCCAGAAGATCGCGGAGCTGGAGCAAGCTGAGGAGAAGTATGGCTCGTACGAGAACATGACGTACGTCGAGCTCAGTGACGGCGCCAGGATGCCGACCCTGGCTGTAGGAACAGCTCTGCTGGAGAATGGTCTCATCAAACCCATCATAAAAGCAGCAATAGCTCTCGGCTACCGAGCTATAGACAGCGCCTTCGTGTACGGTAACGAGCGCGCGGTGGGCGAAGCCATCAGAGAGAAGATACAAGACGGAACCGTGAGACGCGAGGATCTCTTCATCATTTCCAAGTTGTGGAGCACGAGCCACCGCCGCGACCTGGTGCCCAGCGCCTGCCGACAGTCTCTGGACGCGATGGGGCTGGACTACTTCGACCTCTACCTCATACACAACCCCATGTCCTTCAAGGAGGGCGCCAATCTTCTACCGAAAATCGCGAACGTCCTGCAATACTCCGACCACGACTACCTCGATGCCTGGTTCGGTGTGGAGAGCTGCATCAAGCAGGGCCTCGTCAAGAGGGGAGGGGTCAGCAACTTCAACTCTGTCCAGGTCCAGAGAGTTCTGGATAAAGGGAGGATCAGGCCGGTCATTAACCAGGTGGAGTGTCATCCGTATCTGAGTCAAACTCGTCTCCACGACTACTTGGTGCCCCGCGGCGTATCTCTCAGTTGTTATGGGGTATTGGGGTCGTCGGGGACCCCGCGTCACCTGCGCTCCCCGCTTCCCCCCGTCATCAACGACCCCCTCGTCAGGACCATGGCCGCCGGGCTTGGGGTGACTCCGGCGCAGTTGCTTATTAGCTACCAGGTCCACATGTGTCACCACGTGGTGGTGAAGGCGTCCAGCGCTGGTCACCTCCGCGACAACCTGCTGTCACTGGAGCTGCAGCTGGAGCCGGCCCACGTGGCCGCACTCTCCGCCCTGAACAGGAACAAAAGGACCTTCACCTTCCAGGGAACCTCGATGTCATTTCAGGAGGGCGCCAATCTTTTACCGAAAATCGCGAACGTCCTGCAATACTCCGACCACGACTACCTCGATGCCTGGTTCGGTGTGGAGAGCTGCATCAAGCAGGGCCTCGTCAAGAGGGGAGGGGTCAGCAACTTCAACTCTGTCCAGGTCCAGAGAGTTCTGGATAAAGGGAGGATCAGGCCGGTCATTAACCAGGTGGAGTGTCATCCGTATCTGAGTCAAACTCGTCTCCACGACTACTTGGTGCCCCGCGGCGTATCTCTCAGTTGTTATGGGGTATTGGGGTCGTCGGGGACCCCGCGTCACCTGCGCTCCCCGCTTCCCCCCGTCATCAACGACCCCCTCGTCAGGACCATGGCCGCCGGGCTTGGGGTGACTCCGGCGCAGTTGCTTATTAGCTACCAGGTCCACATGTGTCACCACGTGGTGGTGAAGGCGTCCAGCGCTGGTCACCTCCGCGACAACCTGCTGTCACTGGAGCTGCAGCTGGAGCCGGCCCACGTGGCCGCGCTCTCCGCCCTCAACAGGAACAAAAGGACCTTCACCTTCCAGGGGATGGGAGACACGCACAAGAACTATCCCTTCAAGATACCTTTCTGA

Protein sequence:

>DPOGS214976-PA
MSPVHHSVLLKFFKDTTSMSEKKEGIESRVPKEQEMRGDKEIREEIARAGEVEMKHFSQEPVIQVTREESSFVKGDLKVEKLVVTEDIANGTTTKHIVTVTESGEANEEQTEIYSEMTARKTERDDQRREGFQRTVHRVTRIPQLKFKHTVDKIKKQEEMIKQGRDEVSLALRVAEVVHETKNDRSHLQQIDKVQSPDMEDEFDKIYDEICDGPPSGNFPTPGKIDDSDGLDNKFEEIMNNYDKVEEQKEQAGSGTVKSKIPLLKRKSEQDIDVTKSTLRRNSLKTSSSVDDTKHFIRKLPEPVTTERRKQEESIEGNTVTSLNSDTWVQSETVSVKKFASTKKVTSASETISTQQSHEQACDTENNLITHRYITGSRIPKHFKNINGREKKNEDNKTNRSETKEIKTTTIKDYTITLNIKDRISKVETKPNIIENIKILENNNEITQKDFQQTEAEEQSHTDNTQPETSKVEATSPTIMTTNKEDSNEVVPDKYFRDLDTKRSQEKDSNNTIVEEPSNKNRNNNETTSVSPRECHRDNTLEIRHDTTDIQDDDQLKEAVNVVTLEFPNLLISASKSFSNDCHRNVSRTLSKETTEIKYEGEEKVMICDKNVVKVINQRTEQNHKETEDREDKRVGNNINQENYSAGKEFTIETKKEFQERDITGNKEYIVSKFKNNEEKIEEESQRNITTHEQTEKEINMEEKYREFYIKKLQNMIPEKLEELEEEDIILLKGKVKRVMKRLNSKEFRKRQTETGDLPTDVSVINKIALFEQSKDCLRRDGLEEEDKKDKIHSNKPKIVDEVLKAEDPEANEDERSKRNDSVREESTFSYNAFLNYKNTIKREISVQENKATGRGAKTECHEKYEYNINLNNFTDDKKNILEKIEAAALKDNKSKDILKEYKINKEKDSETKRAKAEADVNYQGVRGRVREMVMRMNSTDRTALERREGDRRRRRQGAVAEAIALFEVSEVAGNGCQEKNLCILMVSKYLVAFYNEMRVGDETTRPGTVAGTRRELRGLTMLVFKKVPAARQESVANASSLAKKDEAPVQTTEEELLQKIAELEQAEEKYGSYENMTYVELSDGARMPTLAVGTALLENGLIKPIIKAAIALGYRAIDSAFVYGNERAVGEAIREKIQDGTVRREDLFIISKLWSTSHRRDLVPSACRQSLDAMGLDYFDLYLIHNPMSFKEGANLLPKIANVLQYSDHDYLDAWFGVESCIKQGLVKRGGVSNFNSVQVQRVLDKGRIRPVINQVECHPYLSQTRLHDYLVPRGVSLSCYGVLGSSGTPRHLRSPLPPVINDPLVRTMAAGLGVTPAQLLISYQVHMCHHVVVKASSAGHLRDNLLSLELQLEPAHVAALSALNRNKRTFTFQGTSMSFQEGANLLPKIANVLQYSDHDYLDAWFGVESCIKQGLVKRGGVSNFNSVQVQRVLDKGRIRPVINQVECHPYLSQTRLHDYLVPRGVSLSCYGVLGSSGTPRHLRSPLPPVINDPLVRTMAAGLGVTPAQLLISYQVHMCHHVVVKASSAGHLRDNLLSLELQLEPAHVAALSALNRNKRTFTFQGMGDTHKNYPFKIPF-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: