MonarchBase - Protein-coding gene

DPOGS209247
Transcript	DPOGS209247-TA	3150 bp
Protein	DPOGS209247-PA	1049 aa
Genomic position	DPSCF300111 - 441299-449739
RNAseq coverage	477x (Rank: top 26%)

Annotation
*Heliconius*	HMEL016738	0.0	69.56%
*Bombyx*	BGIBMGA007063-TA	9e-146	51.01%
*Drosophila*	CG3160-PA	1e-99	29.38%
EBI UniRef50	UniRef50_Q16K53	2e-132	31.02%	Gpi inositol deacylase pgap1 n=1 Tax=Aedes aegypti RepID=Q16K53_AEDAE
NCBI RefSeq	XP_001656358.1	4e-133	31.02%	gpi inositol deacylase pgap1 [Aedes aegypti]
NCBI nr blastp	gi\|157134542	7e-132	31.02%	gpi inositol deacylase pgap1 [Aedes aegypti]
NCBI nr blastx	gi\|270011727	6e-155	33.94%	hypothetical protein TcasGA2_TC005802 [Tribolium castaneum]

Group
Gene Ontology	GO:0006886	3e-58	intracellular protein transport
	GO:0031227	3e-58	intrinsic to endoplasmic reticulum membrane
	GO:0016788	3e-58	hydrolase activity, acting on ester bonds
	GO:0006505	3e-58	GPI anchor metabolic process
KEGG pathway	aag:AaeL_AAEL013115	1e-132
	K05294 (PGAP1)	maps->	Glycosylphosphatidylinositol(GPI)-anchor biosynthesis
InterPro domain	[44-261] IPR012908	3e-58	GPI inositol-deacylase PGAP1-like
Orthology group	MCL14934		Single-copy universal gene

Nucleotide sequence:

>DPOGS209247-TA
ATGACATTTATGTTTGAATATCCACAATTTGTACGAATATCTTTGGAGGAAAATAAAAAATATCCTCAATATGGTCTATATGCCTATAGTGAAGGAAGATTTACTGAAAAGGCTAGAAAGATGTGGTTTGATGGAATACCTGTATTATTTTTGCCAGGCAATTCTGGTAGTCACATGCAAGCTAGGTCTTTAGCTTCAGTTGCACTAAGAAAGGCTTTATCAGAATCATATGAATATCATTTCGACTATTTTACGATTAGCTATAATGAAGAATTGTCAGGCTTATATGGGGGAGTTCTTCAAGGGCAGACTGAATTTGCTTCAGCATGTATAAATAAAATACTTACATTATATAAAAGCAATAAATATACTAAGTCAGTACCAACATCAGTAATTCTTATTGGACATTCAATGGGTGGAATTATTGCAAAGAGATTACTAACATATCCATATACAAAAAATTCAACCAACATTGCAATAACTCTAGTAGCACCTTTGAAAGCACCAGTCATTAATTTTGATATACTTTTAAATGAATACTATATGCAAATGGATATGGAATGGATGGAATATAAACTATCAAATTTAAGACATGATAAGATTCTAATCAGCATTGGGAGTGGCCCTCGAGATATGTTGATACCAGCTGGTTTAACAGCTTCCAACTATAGCCATATTAATACTCTGTCTACAGCTATTCCAGGTGTTTGGGTTAGTCCTGATCATGTTAGTATGGTGTGGTGCAAACAGCTAGTGTTAGTTATCAATAGATTCCTCTTTGACATTGTTGATACATGGACCGAACAGATATCGATCAACTCAGCATATATTGATCAAAAAGCTAGACAATATTTTAAGGCCAATCGTTCAACAACTTTAGATAAGTCTATATTACGTCATAACGTCAGTATGCAAGTCGACGGTTTTTGGTATGAAGATAGCAGGAGAATTTATCAGATATCACGACCGGGGATCGAAAGAACAACACATTTAATGATAAGATTAGTAAGTTTCCCTCAAAATAGATTTGTTGCAATCGAATCTACTAATGTTGATGATAAAGATTGGATATTTGGATGCACCGCTAAGGATGTCCACAATAATTACAGATATTGCAAAGAGGCGACATCACTAAGCGAACTGAGTCGATGGTCGGGAGCAGCAACCGATTACGGAAGGAGAAAGTTAGCGACGATCCATCTTCACCAAATAATGGAAGAAGAACCGCAATGGACGCACGTTATTGTTAAAGTTTCGCCAACTAGGAAACCGATTGTACTTAACGTGGATACAAATGATTACGCTTCCAGACAAATAGAAGTATCAGCGCCATCGGATTATTCATTTGGGAAACGCGTTGTAATACCCGAAACTGTACCGAATAGTCTCTATTATGAGCTGATCCTATCAGAATTTAATTTAATACACCAAGCTTATTTATTATACGTGGAACCTACTGAAACATGTAAAGGACAGTATCATGTGTCAGCTGAAGTTCACGTGCCCTGGGCTCAGAATAACGAATATTACCATTATTTCACCCCTCTCAAACGATCCCCGATGAAACTGCGATTGTTTGAAAGCAATCCTAATATAACATTAGGACAAGACGCCACAGAAAAAGTTAAAATTACTTTATTGTTAGACCCACAATGCACCTTTAGTGTAAGTATATCAATATCCTGGTATCACCGTTTGGCTCAACTGTCTCGTAACTATACTCCGATTCTGGTTCCATATGTGGCAGCTATATTGCTACTGGCAGCTAGAAATAATATACTCAATATACAGAGTACTGGATGTCCTTCCATACATAGTGCCTTAATGAGTGACAGTGTTAGACCATATTTTGTGCTAGTCTTTGCCCGTCTAGCCATAACATCATTTATGTCAGTTCCATTTTTATCGTTTCTTTTCGAGAATGCCAGTTGGAGAAATCTTGAATTACAATACTTTGTACGCTCGCTACTTGTGTTACCAACATACATGACAGCTCTCGGTATTATCAATATTGTTGCTCTGGCCCTGCTTATTATTATGGTATTTTCATCTCAATTGGCACATCGATTGTTATTCAGGATAGTATGGCGTGGTGGAATGGGTCTGGCTGAAAAAATGGCTGTGGGTTTACAGAAAGTACCCATGCTGGTTAGTGCTGCGCTGATATGTGCTGTACCATTGTCTTGTGGGGCTGCATCATTGGCCGCTGGTGCCACATTCTATATGTTCATTCTGTCAAAAATGTATGAAGAATATTTAGAGGATTATGTTTATAAGCTGATGGCAAAATTGGCAAGTCGTATGTGTTATATGTTCAAGGGTAAGAAACCGAAAGAAGACTCAAAACAATGTACTCAAAAAGAAGACAATTCCAAAGATATTACTAATTCAGAGAATCTCAAAGCCATAGAGTTCAAAGAACATTCCAAAAAGGATGAAGATCAACCTGATAAACAAACGAATGATACTAAAAGTAACAATATACAGAAATGTGATAGCAGTGAGAACCTTATAGATGAGGAGCTCAGTAGTATAAATTTTCATGTCATGATGTTCTTTTTGTGGATGGCAGTAACTGTAGTCAATATTCCCGCTTTGTTGACATGGGCACGAAACTTCAAATATAGTATGGTCTTAAAACCTGACACCTCATACTACACTGGCCTCGTCATGGCAGCATGTTCATCAATTATTTGGCAGATGGACAGCCCAAGGAAAAACTTAAGAAACTATGAAATGGTGTCTTCCGCACTATTCATAATGGCTGTATTGATATGTGCTCTGGGACCATTTTCCCTCTCAATTGTAAATTATGGAGTGACATTTATGTTTGCAATAATAACTCTGCAGCAGTTATATGATGTTGATGATAACATTGATGAAAATTTGCTTACACAAGAGCCCTTACAAGATAAAGAAATTACTAATATAGACCAAGAAAATGAGGCAGACAAAAAAGATACTCAAGAAGAAAATTGTAGCAAAAAGGAAGATTTAAATAAAGATGCGGGTGAAAGTCTTAAAACTGATAATTCTTCTGAGGCTGAGTGTGGCGATAAGTCCAGTGACTGCGATAAATGTGATGAGAGTAGAATTTACAGAGTTTTCAAAAATCTCAGAGAAAAATTTAGTTTTGGTGACAATGAATGA

Protein sequence:

>DPOGS209247-PA
MTFMFEYPQFVRISLEENKKYPQYGLYAYSEGRFTEKARKMWFDGIPVLFLPGNSGSHMQARSLASVALRKALSESYEYHFDYFTISYNEELSGLYGGVLQGQTEFASACINKILTLYKSNKYTKSVPTSVILIGHSMGGIIAKRLLTYPYTKNSTNIAITLVAPLKAPVINFDILLNEYYMQMDMEWMEYKLSNLRHDKILISIGSGPRDMLIPAGLTASNYSHINTLSTAIPGVWVSPDHVSMVWCKQLVLVINRFLFDIVDTWTEQISINSAYIDQKARQYFKANRSTTLDKSILRHNVSMQVDGFWYEDSRRIYQISRPGIERTTHLMIRLVSFPQNRFVAIESTNVDDKDWIFGCTAKDVHNNYRYCKEATSLSELSRWSGAATDYGRRKLATIHLHQIMEEEPQWTHVIVKVSPTRKPIVLNVDTNDYASRQIEVSAPSDYSFGKRVVIPETVPNSLYYELILSEFNLIHQAYLLYVEPTETCKGQYHVSAEVHVPWAQNNEYYHYFTPLKRSPMKLRLFESNPNITLGQDATEKVKITLLLDPQCTFSVSISISWYHRLAQLSRNYTPILVPYVAAILLLAARNNILNIQSTGCPSIHSALMSDSVRPYFVLVFARLAITSFMSVPFLSFLFENASWRNLELQYFVRSLLVLPTYMTALGIINIVALALLIIMVFSSQLAHRLLFRIVWRGGMGLAEKMAVGLQKVPMLVSAALICAVPLSCGAASLAAGATFYMFILSKMYEEYLEDYVYKLMAKLASRMCYMFKGKKPKEDSKQCTQKEDNSKDITNSENLKAIEFKEHSKKDEDQPDKQTNDTKSNNIQKCDSSENLIDEELSSINFHVMMFFLWMAVTVVNIPALLTWARNFKYSMVLKPDTSYYTGLVMAACSSIIWQMDSPRKNLRNYEMVSSALFIMAVLICALGPFSLSIVNYGVTFMFAIITLQQLYDVDDNIDENLLTQEPLQDKEITNIDQENEADKKDTQEENCSKKEDLNKDAGESLKTDNSSEAECGDKSSDCDKCDESRIYRVFKNLREKFSFGDNE-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: