MonarchBase - Protein-coding gene

DPOGS202912
Transcript	DPOGS202912-TA	5385 bp
Protein	DPOGS202912-PA	1794 aa
Genomic position	DPSCF300126 + 353370-367491
RNAseq coverage	708x (Rank: top 18%)

Annotation
*Heliconius*	HMEL011774	81.19%
*Bombyx*	BGIBMGA004193-TA	74.56%
*Drosophila*	Mcr-PA	55.62%
EBI UniRef50	UniRef50_Q9VLT3	55.62%	LD23292p n=19 Tax=Endopterygota RepID=Q9VLT3_DROME
NCBI RefSeq	XP_397416.2	58.40%	PREDICTED: similar to Macroglobulin complement-related CG7586-PA, partial [Apis mellifera]
NCBI nr blastp	gi\|322788458	59.02%	hypothetical protein SINV_07362 [Solenopsis invicta]
NCBI nr blastx	gi\|195388010	56.39%	GJ20388 [Drosophila virilis]

Group
Gene Ontology	GO:0005615	3.4e-52	extracellular space
	GO:0005576	8.1e-25	extracellular region
	GO:0004866	2.8e-16	endopeptidase inhibitor activity
	GO:0005515	5.7e-07	protein binding
KEGG pathway
InterPro domain	[1189-1540] IPR008930	7.2e-55	Terpenoid cylases/protein prenyltransferase alpha-alpha toroid
	[1243-1536] IPR011626	3.4e-52	A-macroglobulin complement component
	[1615-1759] IPR009048	8.1e-25	Alpha-macroglobulin, receptor-binding
	[683-815] IPR011625	2.2e-21	Alpha-2-macroglobulin, N-terminal 2
	[954-1044] IPR001599	2.8e-16	Alpha-2-macroglobulin
	[228-318] IPR002890	7.4e-15	Alpha-2-macroglobulin, N-terminal
	[885-928] IPR002172	5.7e-07	Low-density lipoprotein (LDL) receptor class A repeat
Orthology group	MCL15769		Insect specific

Nucleotide sequence:

>DPOGS202912-TA
ATGAATCTCAAAGTGATATCAATATTATTATTTATAATAACAAATGCAACATGGGCTCAAGACTATTCATCTCAAACATACAAACCTGACTACCAAGTGAACCCAACAAACAATTATCTCAACACCAACGATCCAAAATATGACAATCCGTATGATCCTAACAAAAGATTCTCAAATCGTAATCAATACGATATAAATCGTAATCCATACAGTACTGAGCAAAGATACAATCAGTTCGACCGTAATGACCTAGGGACCAATCAGAACCCATATAAGACGGATACCGGAAGACAGACTTACGACACCAGTAGAACATACAGTACTTCATACACGGGAGCCGAGTTGGAACATGATAGTGTTATTATAAATGAAGCCACCTATTTCATTGTTGCATCTCGAATGATCCGGCCGGGGCAAATATATAAGATCTCAGCTAACATTCTGAAAGCTCGTCTCCAGATGACGATCAGAGCATCCATCTCATGTAACGGTGTGGAAATAGCTGACGTTATAGAGAGAGTGAAGGAAGGTGTTCCTGAGGTTTTGAATATGAGGGTGCCCGCTACAACGGTGCCGGGAGACTACAGGCTGCGCGTGGAAGGTCTCTACCTGGACGATCCATTTGGAGGGAGAGCTTTCGTTAACGAAACAAAATTGACTTTCTCACAGAGATTCATGACCATCTTCATACAGATGGACAAGCCGGTGTACATGCAGTCGCAGACTGTTAAGTTCCGTGTGATTCCAATCAACACGGAGTTGAAGGCTTTCGGCCGAGCCATCGACGTCTTCATACTGGATCCCAACAAGCGTATCATGAAGAGGTGGCTCTCCAGACAGAGTAATTTTGGTACGGTGAGCCTGCAGTATCCCCTGTCGGACCAGCCTGTGTTCGGTGACTGGACGGTGAGGGTGGAGGCGCTGGGGCAGAGAGAGGAGGCCAGCTTCCTCGTGGAGGAGTACTATCAGACCAGGTTTGAGGTGAACGTGACTATGCCGGCCTTCTTCTTCAACACGGACGGGTTCATCCACGGTCGCGTGATGGCCAACTACACGTCGGGCGCTCCTGTGCGGGGCAACCTCACTCTTCGCGCCACCCTGCGGCCGGTGCCGTCGTACAGGCCGAGACAGCAACACAGATACAACACACAACGTCCGAACTACAATCCCTACTTATACAACGAGACGGAGCAGTACGACCAGGGACAGGAGGATAGACGCTGGCAGCTCAACCACCGACCCGGGCAGCCCAACCAGCTCGACCATCCCGACTGGTGGTATGACACGCAGAAGGTCGTCTCCAGGGTGTTTAACTTTGATGAGGAGTTCCCGTTCTGGATGCCGAAACCAGACCCTGTTGAGATCGCACAAATTAATATGAACATCAACAACAACAACATGAACAACATGAACAACATGAACAACTACCCAACAACTACATCATATAATAATTATTACAACAATCCCTACAACGACAAGCTGCCTTATTTAAGATTTTTCAACGGCACGTACGACTTCAAGTACCCGATGTCGGAGCTGGCGCAGCTGGTGCCGTCGTTGGAGGGCGTGGAGGTGATCGTGACGGCGACCGTGGGCGACCCGTTCCTGGACGAGGTGGTGGAGGGCTACAGCGTCGCCCGCATCTTCAACTCCTCGCTGGCCGTCACCTTCCTCGGCGGGGAGCTGCAAGTCTTCAAGCCGCACATGCCTTTCGATGTTTATATGGCGGTGTCTTTCCACGACGGGTCTCGTCTCCCGTGGTGGCTGGCTCGGGGCGCGGTTCTGTCCGTGTCGGCGTCGCTGGAGGGCCGCGGCGGTGCCATCGAAGTGCCTCGGCCGACGCTGGTGCCGGGGGACACCGCCGTGTGGCATCTCAAACTAGACCTTTATAAGCTCCTCAAACTGGACAACGACCCCAACTACCGCGAGGTGTTGAACGGCATCACCGGAGTCCGTCTGTCGGCGTCGCTGGTGGACGCTTCGGGAGGCCGAGCCACCGCTGACGCACACTTCGTCGCCCACCAGAGCCCTAACCATCACCACCTCCGAGTGTCCACATCAACTACAGACGCCAGGGTGGGCGAGTACATCGTCTTCCACGTGCAAAGTAACTTCTACATGGAGTCGTTCAACTACGTCGTCATGTCCAAGGGAATCATTCTGACGAGTGGACAAGAAATGATGCAGGAGGGTGTGCGTACATTTTCGGTGGGCGTGAGCGCTGAGATGGCTCCCGTGGGCACGCTGGTCGTGTGGGCGCATCGCAGACGAGCGCTCGTTCTGGCCGACTCCATCACATTCCCCGTTAACGGCATTTCCACTAACAACTTCACAGTGCACATCAACAACCGTAAGCACCGTACAGGCGAGCGCGTGGAGGTGGCCATCTACGGTGAGCCGGGGGCGTACGTCGGCCTGTCCGGCATCGACCACGCCTTCTACACCATGCAGGCCGGCAACGAACTCACCTACGCTAAGGTGTTATCGAAGATGTCTCATTTCGACGAGTCCACTAACGGCACGTTCTCGTACACGTGGCGCTCGCACTTCGGTGACGCGGACGAGCTGGTGTACTTCCCCTCCGCCAGCTTCGGCATCGACGCCAACAGGACATTCGAATACGTGGGTCTGATAGTGCTGAGCGACGTACCGGTGTGGCGGCGGCCGTCCCCCTGCAACTCGTCCTTGGGTCTCGGCGAGTGTCTGGACGGCTCCTGCTACCCTCTCGCCAAGCGGTGTGACGGCAGCCCGGACTGCGCCGACCGCACCGACGAGGCTAACTGTCAGCGCGAGGACTCATTCGAGCTGTCCCACTTCCGCAAGTTCCGGTTCAACCGCATCCAGCGCCAGTACGACAACGCGTGGCTGTGGCGGGACGTGAACATCGGCCCGCACGGCCGGTACGTGTTCACGGCGGACGTGCCCGCCGCGCCCGCGCACTGGACGATCTCCGCCTTCGCCATGTCGCCCACCAGCGGCATCGGCATGCTGGCCAAGCCGCTACACTACGTGGGTATCTTGCCGTTCTTCATGAAGCTGGAGGGTCCCGACAAGTGTCGCCAGGGGGAGCAGCTAGGCCTGCGTGTGGCGGTGTTCAACTATCAGCCCCAGGACATCGAGGCGGTGGTCGTGCTGGCCAGCTCACCCGACTACAAGTTCGTGCACGTCGAGGAGAATGGCATCGTCCGCTCGTACAACCCCCGCACGTCTTTCGGCGAGCACCAGTTCTTCGTGTACATCAAGGCGGGCGACGCGGCCGTGGTGCACATCCCCGTGGTGGCGGCCCGCCTCGGCACCATCAGGGTGGACGTGCTGGCCTCCACGCTGCAGGGACAGCACCGAGAACACAAATACATCACCGTAGAGGCGGACGGTATACCTCAGTACCGCCACCAGTCGGTGCTGCTGGACCTGTCCAACCGCGCCTACGTGTTCCAGTACATGCACGTGAACGTGACGGAGACTCCCATCATCCCGTACGAGGTGGACCGCTACTACGTGTTCGGCTCCAACAAGGCCAGGATCTCCGTAGTAGGAGACGTCGTGGGCCCGCTCTTCCCCACCATGCCCGTCAACGCCACCAGCCTGCTGGACTTACCGATGGATTCTGCGGAACAGAACATGTTCAGTTTCGCGGCCAACATGTACCTGACGCTGTACATGCGGCTCATCAACCAGAGGAACCGCACGCTGGAGAAGGAGGCCTTCTACCACATGAACATCCTGTATCAGAGACAGCTGTCCTTCATGAAGGCGGACGGATCCTTTGGACACTTCAGGAGTGACTGGAACCAGTCGTCCTCGAGCGTGTGGTTGACATCATTCTGCGCTAAGATATTCCAGGAAGCTTCCTTCAATGAATGGGAGAACTACATTTACATCGATCCCGATGTGATATCTATGGCCGTGTCCTGGATCCTGGAGCGCCAGGCTCCGTGGGGCGCCTTCATGGAGGTGCATAGGGCGGCCGACCGGAACGCTAACAGCACCATCGTCGTGCCGCTCGACTCACACCTGTACCGAGACGTTGGCAACCAGCTGCAGGGAGTCAAGGCGAACAACTCTATAATACTACAGCGGAATATAACGCTCACGGCGCAGGTCGTCATCACCCTGGAGTCTGTCAAGAACCTCAAAGACTTCGGGATACGAGAGGGTCTGTCGGCTCGCGTGTCGACGGCGCAGCAGCTGGGAGTGTCGTGGTTGGAACGGAACCTGCAGCTCGTCCACGAGTTCGGCTCCCCGCTGACGATGGCGCTCCTCTCGTACGCGCTCACCGCGGCCAAGGCGCCCTCCGCCGAGCACGCCTTCAGATTACTCAAGAGGCATCAGCGATCCGAGGGTGGTCTGGTGTACTGGGGCAAGGAACCCGTGCCAGCTCCTCCATATAAAATGGAAAACCAGAAGCCCTTCCTGCTTCCTCGGCTGCCCTACAACTACGACTCCAATAACATCGCCGCCACGGCCTACGCTCTGCTCGCCTGCATGGACCATCAGGACAACAACGAACCAATCGTTATGTGGCTTAATTCACAACGTCTCAAAGATGGCGGCTGGGCTTCCACACAGGACACGTACATAGCCCTCCGCGCGCTGATCGAGTACACCAACAGGAAGCGGTTGCGTGACGTGAGCTCGCTGGCGGTGAGCGTGGAAGCCGTGGCGCTGAGCGGCGAGCCCAGGACGCTCACCGTCAGGAATCAAGACCTCGCTACGCTACAAACGGTCGATATTCCCAGCGCTTGGGGTACAGTGAAGGTGACAGCTCGCGGCGCGGGGTACGCCATCCTTCAGATGTCCGTCCAGTACAACGTGGACACGCCGCGGTTCCAGACACAGCCCCCGCGCCCGGCCTTCGCCCTCCTCGCGCGCGCTCACTACTACGGCCGGAATCAGTCGCACATACACTACCAGACATGCGCCAGCTGGACTCACCTGTCGGAGAGTCCGGTGTCGGGGCTGGCGGTGCTGGAGGCAGCTCTGCCGACCGGCTACATGATACAACAGCAACGACTTGACGGATACGTCATGAGTGGAACAGTTCCCAAACTACAGCGAGCCAGATACCAGCCCGGGAAGATTCTGTTCTACTTTGATTACTTGGATCACGAGTTGACCTGTGTGAACTTCACCATCGAGCGCTGGTACCCCGTCGCCAACATGTCGCGATACCTCCCCATACGAGTGTACGACTACTACGCACCCGAACGTTTCAACGAGACGATATTCGACGCTCTCCCCACTTACTTATTGAACATCTGCGAGGTGTGCGGCTCCTCGCAGTGTCCGTACTGCGCCATCTACAACGCCGGGGCTCCGCTGACCGCCTCCGCGCTCCTGCTACTAGCGACCGTCGCCGCGATCATACGGAACGTACGAACGTAA

Protein sequence:

>DPOGS202912-PA
MNLKVISILLFIITNATWAQDYSSQTYKPDYQVNPTNNYLNTNDPKYDNPYDPNKRFSNRNQYDINRNPYSTEQRYNQFDRNDLGTNQNPYKTDTGRQTYDTSRTYSTSYTGAELEHDSVIINEATYFIVASRMIRPGQIYKISANILKARLQMTIRASISCNGVEIADVIERVKEGVPEVLNMRVPATTVPGDYRLRVEGLYLDDPFGGRAFVNETKLTFSQRFMTIFIQMDKPVYMQSQTVKFRVIPINTELKAFGRAIDVFILDPNKRIMKRWLSRQSNFGTVSLQYPLSDQPVFGDWTVRVEALGQREEASFLVEEYYQTRFEVNVTMPAFFFNTDGFIHGRVMANYTSGAPVRGNLTLRATLRPVPSYRPRQQHRYNTQRPNYNPYLYNETEQYDQGQEDRRWQLNHRPGQPNQLDHPDWWYDTQKVVSRVFNFDEEFPFWMPKPDPVEIAQINMNINNNNMNNMNNMNNYPTTTSYNNYYNNPYNDKLPYLRFFNGTYDFKYPMSELAQLVPSLEGVEVIVTATVGDPFLDEVVEGYSVARIFNSSLAVTFLGGELQVFKPHMPFDVYMAVSFHDGSRLPWWLARGAVLSVSASLEGRGGAIEVPRPTLVPGDTAVWHLKLDLYKLLKLDNDPNYREVLNGITGVRLSASLVDASGGRATADAHFVAHQSPNHHHLRVSTSTTDARVGEYIVFHVQSNFYMESFNYVVMSKGIILTSGQEMMQEGVRTFSVGVSAEMAPVGTLVVWAHRRRALVLADSITFPVNGISTNNFTVHINNRKHRTGERVEVAIYGEPGAYVGLSGIDHAFYTMQAGNELTYAKVLSKMSHFDESTNGTFSYTWRSHFGDADELVYFPSASFGIDANRTFEYVGLIVLSDVPVWRRPSPCNSSLGLGECLDGSCYPLAKRCDGSPDCADRTDEANCQREDSFELSHFRKFRFNRIQRQYDNAWLWRDVNIGPHGRYVFTADVPAAPAHWTISAFAMSPTSGIGMLAKPLHYVGILPFFMKLEGPDKCRQGEQLGLRVAVFNYQPQDIEAVVVLASSPDYKFVHVEENGIVRSYNPRTSFGEHQFFVYIKAGDAAVVHIPVVAARLGTIRVDVLASTLQGQHREHKYITVEADGIPQYRHQSVLLDLSNRAYVFQYMHVNVTETPIIPYEVDRYYVFGSNKARISVVGDVVGPLFPTMPVNATSLLDLPMDSAEQNMFSFAANMYLTLYMRLINQRNRTLEKEAFYHMNILYQRQLSFMKADGSFGHFRSDWNQSSSSVWLTSFCAKIFQEASFNEWENYIYIDPDVISMAVSWILERQAPWGAFMEVHRAADRNANSTIVVPLDSHLYRDVGNQLQGVKANNSIILQRNITLTAQVVITLESVKNLKDFGIREGLSARVSTAQQLGVSWLERNLQLVHEFGSPLTMALLSYALTAAKAPSAEHAFRLLKRHQRSEGGLVYWGKEPVPAPPYKMENQKPFLLPRLPYNYDSNNIAATAYALLACMDHQDNNEPIVMWLNSQRLKDGGWASTQDTYIALRALIEYTNRKRLRDVSSLAVSVEAVALSGEPRTLTVRNQDLATLQTVDIPSAWGTVKVTARGAGYAILQMSVQYNVDTPRFQTQPPRPAFALLARAHYYGRNQSHIHYQTCASWTHLSESPVSGLAVLEAALPTGYMIQQQRLDGYVMSGTVPKLQRARYQPGKILFYFDYLDHELTCVNFTIERWYPVANMSRYLPIRVYDYYAPERFNETIFDALPTYLLNICEVCGSSQCPYCAIYNAGAPLTASALLLLATVAAIIRNVRT-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: