MonarchBase - Protein-coding gene

DPOGS204068
Transcript	DPOGS204068-TA	4548 bp
Protein	DPOGS204068-PA	1515 aa
Genomic position	DPSCF300200 + 28383-34108
RNAseq coverage	137x (Rank: top 55%)

Annotation
*Heliconius*	HMEL013132	0.0	64.01%
*Bombyx*	BGIBMGA010808-TA	0.0	48.42%
*Drosophila*	Spargel-PB	4e-30	47.55%
EBI UniRef50	UniRef50_UPI0002064CDD	2e-31	43.53%	UPI0002064CDD related cluster n=1 Tax=unknown RepID=UPI0002064CDD
NCBI RefSeq	XP_001122841.1	3e-31	42.94%	PREDICTED: similar to CG9809-PA, isoform A [Apis mellifera]
NCBI nr blastp	gi\|380023580	4e-31	43.53%	PREDICTED: uncharacterized protein LOC100870622 [Apis florea]
NCBI nr blastx	gi\|157138054	9e-54	24.56%	hypothetical protein AaeL_AAEL003768 [Aedes aegypti]

Group
Gene Ontology	GO:0000166	4.1e-12	nucleotide binding
	GO:0003676	2.4e-10	nucleic acid binding
KEGG pathway	gga:422815	2e-15
	K07202 (PGC1)	maps->	Huntington's disease
			Adipocytokine signaling pathway
			Insulin signaling pathway
InterPro domain	[1371-1439] IPR012677	4.1e-12	Nucleotide-binding, alpha-beta plait
	[1383-1439] IPR000504	2.4e-10	RNA recognition motif domain
Orthology group	MCL25776		Lepidoptera specific

Nucleotide sequence:

>DPOGS204068-TA
ATGGAGTCGCATATTTTGAATATGTATCACCAGGCCCCATATAGGAATATTGGTCATAACATACTCCGTTCGATAAGCGAGTCGTTATCATCCGAGGGCAGTTGTAACCAGAACAGCCCGGAACAGCAGGCTGATGAGAACGAAGTGTATTGGACAAGAAATACTCAGGTTTGGAGTCAAAATCAGAATGTAAATATAACACAGTCGAATCAAGATATAAGTGTAGATGTTGATGAAAATATTGAAGTACAGGAAGTGTCTATAGATGATAGGAACTCTGAAACCGATGGTCAGTTGGACACTGATAATATGGAGGAAAATTCGCTAGTGGAAGGTGATGATTATGATATCATCCAAAAGAAGATAATACATCAGATGAAGGGGAATACATCGATCCTGAAGATAAGATCCGATACGGAACCTAGTGTATCCCAAGACAGTCTAGAATTAAATTTCGATGCACCAGTCGTTTCAAATGTCGATGAATATTTTATAAAACAAAATGATGAGAAGCATATATTAGAGGTGAAAGACGAGCCGGTGGTCAAAGATGTGGATGAGTATTTCATCAAGGACACTAAAGATATGCCAACGATTCCACCACCGACAATCGTTGAGGAACTCCTAGTTAAAAGCAAATTACCTGAGACAGATTTCCGGATATCCAAAACTGTACCAGACGAGATATTCGAGTCCGAGCCGACCGTTGATGTTAAAGAAATAGAAACAGTCGAGCAACAAGAAGATTCAGTGGCAGATGTCTCCATCAACGAATCAGATTTAGAAGTGCTTCCTAATATAGAAGATCTAAAGCGATATCTCTTGGACGATTTGCCTTACACTAAACTGAAGAACGTACAGAAGTCTTACTCCGTCTCTCTACCACATTCGCCGATGCACAATATTTTGGATATAGATTCTAAAACGTGTTTAAGTTTCGAGGATCTTAATTTAGATCTATCTGATCTCACTTTCGAGAATGAGAAAGAGAAATCGAGTGCGAGCTTAAGGAGTGATGATATGCCACGGACGTTGACGGAGGAAGACGTGAACAGCTTTCTGATAACGAATCAAACAGAGTCCAAGGAAGTTGTGACCGTCGATGACTGTTGCCCCCAAGATATGGAAATCGATAGACCTCTGGGTGCTATTATCAGCAACGGAGACGTTCAAACCGTCATACTACCAGACAGAAAATGCACATCAACGCCCATCCCAAAACCCAATGTACTAGAGTTCTGCATAGAGAAGGTCGCTGTGAAAAAAGAACCAGATATAAAAGTCGAAACAGATGATTTTGTGGACGTCGAATCGTGCAACGACGCTGTCATACCCGTCCTGGAAGCGAATAATCTTAACTCCCTCCTAGAACAGTTTGAGGCAACCGAAAAATTGAACAAACGAAGAAAACTATCAGTGAATGTGAGTGATTCTAAAACAAAGACAATAAGCATAACTAGTGGCATGAGACTGCAAGACGCTGGTGTACAATTGAACAAGACGAAGATGCGACAAATATTGATGCCGTCGCCCCTTAACACTGTTATGAGACGTTCTCCAAGTCCGATCCACTCTGATCACGATTATTGTTCGTCCAAGAAACGGCTCAGCCTCCCGAATCTTAAGGGCGGTCAGAGTCTTCTCAAACCCGAGGTCCTGTCCAGCAATAATAAAATACTCAGCTCGAGACATAGGTCGTGTAAAAATAAAAAAGTTGTCTACCACCTCAGCAGCGACGACGAAAGCGATGCTAATACAGCAAAGAAAAATAAAATTCTAAATAATAATCGTGTAGCTGATGATGTTTTTGTTAAGAATAATAAAAAATCTAATATAAAACTAACTGTTAAGGCAGCGGCGAATTCGAATCATCGTAAGAAACAGTCGCCACCGCGTAGTGTGAATGATTGTGATGTTAACAAAGATAACGGCTCTGTGATGGTGAAAAATGCTTTTAAAGCAAGTGATACTTCTTGTAGTCAAAATTGTAACGGTAGCATTAAGTTAACGATAAAAAATAAATCCGAGGTTATTATCAAGAACTGTGATTTTAAGGACAATCGTAAGGACAACGTTGATAAAAATAAATTTGTAGGTGTAAGTGCTAATAGATTTTTGAACGATATAAATAATTCTAATAAAGGCATAGATACTTTAGATAGGAACAAAACGAAAGACTTAAATAGGGTAGAGAAACATTTTAATGTAATCGCAAAACAAGAAGTCAATTCTAAAGAACATTTCTACACTGCGCTGTTTAATGATAAACAGGATATTGAGCTTCCGCAAATAAAAGCCGAGAATAACGTCAAAGATGAGCAAACACAGGCCGAGAGCTTAAATGATTTGGAACAACCACAAAAGAAGAAAAAGCTGAATCTCCAAGAGTACAAATTAAGGCGAAATGTTAGTTCAAATGCTAGCTCAGCTCAAGTTAGCCCCGAAGCTATATTTCCCGATATCCCATGCAACATAAATCTTGATAAGAATTTAAGGGCAGTAAACAATCAAACAGCCAGTGACGTTGTTTCGGCACCAAAAGAGCCTTTAATTTCAGAAGCCCCAAAAACAATCTTCGATCCCATAAGAGAAGCTTCTAGAAAAATACTCATGAATTCCAAAAAGCAAAAGGCTGAAGCTATGAGGAAAAGAGATGAAGATATTGTTATGAGCAAAATACCTAAAGTGGAAAACTTAGAACTACAGCCCCTTATAAGTGATGCGGAAATGATGAAAATTGTTGGCATGACACCTAAGATACTCCCTGTGCCTATTGTACCGCCAACACAAACAGTCGTAGAAGATAAAGTTCAACTAAAAGATCATGACGAAATTGTACTTGTTAGCATCGGTACAAACACTGATGAGAATATGTTCAAACAGATAGACAAGGTTATTGAGAGCAAAAAACGGAAGTCCTCATCGCCCAAACACGAAAACAAAATGACGATCAACTTTAAGATCAAAAAATCTGATCCCGTGCTGAAACAAAACGTATTCGATACAGTTAAACGAAGCAAAAGTCCCATCAATGAGAAAAATCATTCGGAGGTTAAAATCGATAAAGAGAGGCTCAAAGATATTACAGCGACGTTAAAGAGTGTAGAAAAACAAGTGGACACGAAGATTTCTAGCAATTCTCTATTTGCTAGTATCCAAGACGTTGTGATGAAGAATGCTCCAACTGCTGATATTACTAAAGCTGAAAAGTCCCCGAAACATAGCTCAGTCGAAAAACGTGATGCACACCATAAATATAAAACGAGCATAGTGCGACAATACGACAATAGTGATGACCATGGCGAGGACAAAATAATCCTGCATTTAGAGAAGAATCGTAAAAAACCTGATCAAGCTAATGTCGAAGTTCAGACTGATTCTCCCTCTGAATCTGTCGTAATAAAAGATAAAGCAGATTTAAAAGAGAGCAGCCCTTCAACAAGGAAACGAAATGACAGTGACATGTCTATGTCGAGTGACGGTAGTCCTGTTCGTACAAAAAAACAGCACGTGCTGGCAACTAAAGACGAAAAATTATCTCCAACTAAACCAAGACAAGATAGACGCGATGTTCCAAGATCGCAGTCAAAAGAAAAGAGATGCAGGTCCACAGACCGTTATGACGTCAAATACCGACGTTCAAGATCACACTCACGGGGCCACAGAAGGAAAAGGTCTCATAGCCGCAACAGGTCGCGATCTCGGGGACGTTTCAGAAGATATAGAAGATCAGACTCCCCGTATAGAAGGAAAAGAAGATCGCGGACGAGATCGCCGTATCGATCAACAAGACGCTCTCCGTCCGTGCGAAAGGATTACCGCTCGACTCGCACCCGATCGAGGTCGAAACACGCAGAGAAGAAATCGAAAAGCCCAATGCCGAAAAAACGGATCAGTCCACAGAGAGCCAACGCTGAGAAGCCGTCCAGGTCCCTAACACCTCCACCAAGAAAACCGACCGTCTCAGAAAGCTCTGATTCCTCGACGTCTTCCAGTTCGACTTCATCGGGCGCTTCCTCGGCGTCGATCAAGTCGAGATATTCTTGCAGTCCGTACAAAAAAGATGAGAATTTCAGGAAAAACTACAGAAACTCATTTAGTTCTGAAGACAGAGAAAGCAATACTCCAGTAGAGGAGAGGCGGATCGTTTTCGTCGGCAGATTAGAGAAAGATCTGACGAAGGCGGCTCTGAGGGCTCAGTTCACCAAGTTTGGGCCGGTCACTGAAGTCAGGCTGCACTCCAAGGAAGACGGTTCTCGTTACGGTTTCGTAACGTTCCAACGACCTCGCGACGCGTGGTCCGCGGTAGAGGCCGCTTCTTCTTTCCCTCAATACGACGTGGGCTTCGGCGGCAGACGAGCGTTCTGCAGGCAGAGCTACGCTGACCTTGATGGTCTAGAGGCGAAGTACACGGAAAGCGCTTTCCACGGCCAGGCCGCGATGCCGGTCCGCCGGAACGAGGACATGTCGTTCGAGCAAATGTTGTTAGATATAAAAAAGAAATTAAATAAAAGGAAAGGCGACAAAGCCCGCCAAGACGATGCTTGA

Protein sequence:

>DPOGS204068-PA
MESHILNMYHQAPYRNIGHNILRSISESLSSEGSCNQNSPEQQADENEVYWTRNTQVWSQNQNVNITQSNQDISVDVDENIEVQEVSIDDRNSETDGQLDTDNMEENSLVEGDDYDIIQKKIIHQMKGNTSILKIRSDTEPSVSQDSLELNFDAPVVSNVDEYFIKQNDEKHILEVKDEPVVKDVDEYFIKDTKDMPTIPPPTIVEELLVKSKLPETDFRISKTVPDEIFESEPTVDVKEIETVEQQEDSVADVSINESDLEVLPNIEDLKRYLLDDLPYTKLKNVQKSYSVSLPHSPMHNILDIDSKTCLSFEDLNLDLSDLTFENEKEKSSASLRSDDMPRTLTEEDVNSFLITNQTESKEVVTVDDCCPQDMEIDRPLGAIISNGDVQTVILPDRKCTSTPIPKPNVLEFCIEKVAVKKEPDIKVETDDFVDVESCNDAVIPVLEANNLNSLLEQFEATEKLNKRRKLSVNVSDSKTKTISITSGMRLQDAGVQLNKTKMRQILMPSPLNTVMRRSPSPIHSDHDYCSSKKRLSLPNLKGGQSLLKPEVLSSNNKILSSRHRSCKNKKVVYHLSSDDESDANTAKKNKILNNNRVADDVFVKNNKKSNIKLTVKAAANSNHRKKQSPPRSVNDCDVNKDNGSVMVKNAFKASDTSCSQNCNGSIKLTIKNKSEVIIKNCDFKDNRKDNVDKNKFVGVSANRFLNDINNSNKGIDTLDRNKTKDLNRVEKHFNVIAKQEVNSKEHFYTALFNDKQDIELPQIKAENNVKDEQTQAESLNDLEQPQKKKKLNLQEYKLRRNVSSNASSAQVSPEAIFPDIPCNINLDKNLRAVNNQTASDVVSAPKEPLISEAPKTIFDPIREASRKILMNSKKQKAEAMRKRDEDIVMSKIPKVENLELQPLISDAEMMKIVGMTPKILPVPIVPPTQTVVEDKVQLKDHDEIVLVSIGTNTDENMFKQIDKVIESKKRKSSSPKHENKMTINFKIKKSDPVLKQNVFDTVKRSKSPINEKNHSEVKIDKERLKDITATLKSVEKQVDTKISSNSLFASIQDVVMKNAPTADITKAEKSPKHSSVEKRDAHHKYKTSIVRQYDNSDDHGEDKIILHLEKNRKKPDQANVEVQTDSPSESVVIKDKADLKESSPSTRKRNDSDMSMSSDGSPVRTKKQHVLATKDEKLSPTKPRQDRRDVPRSQSKEKRCRSTDRYDVKYRRSRSHSRGHRRKRSHSRNRSRSRGRFRRYRRSDSPYRRKRRSRTRSPYRSTRRSPSVRKDYRSTRTRSRSKHAEKKSKSPMPKKRISPQRANAEKPSRSLTPPPRKPTVSESSDSSTSSSSTSSGASSASIKSRYSCSPYKKDENFRKNYRNSFSSEDRESNTPVEERRIVFVGRLEKDLTKAALRAQFTKFGPVTEVRLHSKEDGSRYGFVTFQRPRDAWSAVEAASSFPQYDVGFGGRRAFCRQSYADLDGLEAKYTESAFHGQAAMPVRRNEDMSFEQMLLDIKKKLNKRKGDKARQDDA-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: