MonarchBase - Protein-coding gene

DPOGS207038
Transcript	DPOGS207038-TA	4488 bp
Protein	DPOGS207038-PA	1495 aa
Genomic position	DPSCF300001 + 1734486-1745421
RNAseq coverage	265x (Rank: top 40%)

Annotation
*Heliconius*	HMEL009408	0.0	73.34%
*Bombyx*	BGIBMGA012978-TA	0.0	67.92%
*Drosophila*	CG40351-PC	4e-140	46.49%
EBI UniRef50	UniRef50_D2A453	3e-141	52.63%	Putative uncharacterized protein GLEAN_15826 n=1 Tax=Tribolium castaneum RepID=D2A453_TRICA
NCBI RefSeq	XP_002044683.1	1e-142	44.88%	GM18767 [Drosophila sechellia]
NCBI nr blastp	gi\|383849246	4e-142	55.64%	PREDICTED: uncharacterized protein LOC100875701 [Megachile rotundata]
NCBI nr blastx	gi\|189238620	0.0	42.93%	PREDICTED: similar to CG40351 CG40351-PC [Tribolium castaneum]

Group
Gene Ontology	GO:0018024	1.8e-151	histone-lysine N-methyltransferase activity
	GO:0005515	1.2e-33	protein binding
	GO:0003676	1.6e-08	nucleic acid binding
	GO:0000166	2.2e-08	nucleotide binding
KEGG pathway	dse:Dsec_GM18767	3e-142
	K11422 (SETD1, SET1)	maps->	Lysine degradation
InterPro domain	[69-1495] IPR015722	1.8e-151	Histone-lysine N-methyltransferase
	[1356-1479] IPR001214	1.2e-33	SET domain
	[95-163] IPR000504	1.6e-08	RNA recognition motif domain
	[94-166] IPR012677	2.2e-08	Nucleotide-binding, alpha-beta plait
	[1479-1495] IPR003616	6.2e-06	Post-SET domain
Orthology group	MCL11587		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS207038-TA
ATGAATGGAGGAATGGAGCACAAAACACCAGGCCACAATGCAGTTCTTCACAAGGGACCTAAAAATTATAAACTTCTAATAGACCCATTCCTAGTAAAGGGAGCGACGAAAGTGTACAGATATGATGGTACTGTTCCTGGTACGTCTTACCCGTCGATACAATGCAGAGACCCGAGACCTCAACCGTCCAGAATATGGAATAAATTAGAACCAGCAGATTTACCGATACCTAGGTTTAGAATTGATAAGAATTATGTTGGTGTTCCGCCACAGTTAGAAATAACTATTGTAAATTTGAATGATAACATCGATAAAGCTTTCTTGTCCGACATGATGAATAAAGTTGGACCTTATGAAGAATTGACAATATTTTATCATCCGATGACTAATAGGCATTTAGGTTTTGCTAGAATTGTATTTCAGGATGTCAAATATTCCAAAATATGTATCGAAAAATATAATGGAAAATCTGTCATGGGGCAGGTACTTGAAGTTTTCCATGATTCATTTGGTAAGAAGTGTCAGGAGATGTTTGAAGATAAAACGGTGGAGAAAAAGCCCCAGCCGGCTCCGATCAAGCCTCCCGAGGATGCCCGAGTGGCCAAGCTAGATCCAGCTCTCAGCAAGAGATTAGAGGATAGCAAACTAGTTGATAAGGACCCATACCTTCGCAAGGAGCTGGAACACAATGACAGCAACACAAGATGGTCAGATGATGAAAGGGACAGAGAGTACAAACATCGCCTCCGCAGTAGAAGTGAGAGAGACAGAGATATTGACAGAGATAGAGATGGCAACAGAGAGAGAGAAAGACACAGAGACCGCTATGCCCGTACCAGTGAACAGAGTGAGTCCTATTCCAGCGCCCACGTTGAGATACCGTACGCTCCAACGCCAGTACCATACGACCCATACTACCAGACCCCTGGCTATGGATACGGCTACGGCACGAGCGCCGGCGCTGTTTGGTGGGGGGACTGGAGACAGCCGCACACCTCTCACCATCACTCACATATATTCCTCAAGTCGGAGCAGAGCAGCAGCAGCACGTGGACGGCCGCGGGCGAGCCGACCCCCTCCCCGCGGCACACACCCCTCGCGGCCCCTCAAACCCCGTACACGCCCGCGCCCCCCACTCCGCTCCCGGAAAAGGAGGTGAAGTGTAAGCCCGAGGAGCCTCTTCCTCCGAGTACGTCCGTCGTCAGCGACCCTGAGCCCAAGCCGCCTCCGCCCAGCGACGAACCCAAGAACGTCGACCTTGACACAAGGATAGCTTTGTTGCTGAAGGGAGCCAGCGGCGGAGGGGGTCTGGCGCCTCCCTTCCTGTCTCTGGGAATGACCTCTGAAGAGGAAGACGAAGACAGGAAGCCTAGGAACATACCTGACCTGGACACACACAACCCGCCGTCAGACGATGAAGGTTCTGTAAGTGAGGATAGAGAGAGTATAATATCATTGAACCAGAATAGAGAAGTTAACCCGGAACCGTTGTCTAATACTCCTTCACCATACCTATCAAGAGAGTTCTATCTTGAATGTCTTAAAGCGACGGTCGAGAGGAAAGCAAAAGAAGAGGAACGCAAAAAGTTCCCGCCAATAGACAAAATAGGTTCCGATATATCGTCGTCTGAAGACGAACTGCTCACTGGGGAGGAACCACGACGTTCACCTGTTAACCCGCCCGATAGAGATCAAGATAATTTGGACGATGATCAGATGTCTTTATCGTCTCTGTCGTCAACGGAGGCCAAAATCGAGGAGCAAGTCCCCGCTGAGGCGTATTACTACCCGCCCGCACACCCGCATTACTATCAGGCGATGTGGCCGACAACTGCCTATCCTCCGGGTGCTGTGGGCGCTATGGGGTCGGTTGCCGCTATGGGGCCCGTGGGAGCGGTGGGCCCAGTGGGCGCGGTGGGCGCTGCATACCCAGCCGCCGGCGACATGTCATTGTATGCTGGTGGCTTCGCTCCTCCCGTGATACACAGCTACCCTCCACCACGCACCGTCACTCACGAGGAGCTCGACAACCCTTACTACCCAACAATCAATAGTGTGATAGAGCGCGTCACGACTGAGCTTAAACAAATACTTAAGAAGGATTTCAATAAGAAAATGATAGAGAGCACTGCCTTTAAGAACTTCGAGGTTTGGTGGGACGAGCAGAGTCGGAAGACGAGACAGACTGTGAAACAAACTAAAGAAGATGTCGGACAACCATTACAAGATGTATCAAATAAGAAGGAGGAATCGGTGGATTCAATAAAATCTATAATGGAGTCTAGAGATCTGGGTCTAGATCTAGGCGGGTACAGTGTTGGTATTGGTCTTGGTCTCAGGGCGACCATACCAAAGATGCCCAGTTTCAGGAAGAAGAGAAAAATACCTTCGCCTGTTGTTATGGACGAGGACTCCAGTAAGAGACTGAGTGATCAGGAGGAAATCGTCCAGAACTCTGACGAAGAGAAGGAAGTACCGACCAGTCCTCGGAATAGGACAACAGGTTCATACCTCTCGACTGGCAGAAGAAGACAGTCGAGCAGCTCATCGAGGTCTTCGTCGTCGTCGTCTTCGCGATCCTCTTGGTCGGGTTCGGAGCGCTCTGTGAGGAAGGTCGCCCCAAGAATATACTCCGACACAGACGACTCGGACCTCGAAGACGCTGAAGTGCAGCAAATCAAGTTGGTGTCCAACAAGGAGAGACTCAGGCGAGTGTACTCATCGTCATCGGACAGCGAGGAAGAACAGAGAAGAAGAGAAAAAACTCCGATACCGGAAGTGGAAGCATCAGACGACCGCCTCGGTTCACCTATTCTGTCGCCGGAAGAGGAACCCAGAGATACAATACTCGATCGTGTATACTCGGACTCTGAGGAAGAGAGGGAATACCAGGAGCGTCGCCGTCGTAACACTGAGTATATGGAACAGATCGAACGAGAGTTCCTCGAGGAACAGCGTCGAGGACAACAGACCTCTGACACGGATGCACAGCAACAAAACGATAGTATAACGGAACCGAAACAAGAAAAGAGTAGAAGTAGTCCAAGCAAGAACTATCTGAAATCACCTGAGAAGAATAAAATGGCAGCTGAGGGTGATGTTGAAGAAGGTGAAATAAGTTCAGAGGAAGAACCTTTAGAAGTTAGAAGAAAGAAGGAGAAGAAACAGAAAAAGAAGACTGACAAGAGACGAAGAGTCACATCCGTCAGCGACCACAGCTTTACCGAGTCTGCGGTTAGCGTGAATGGCGTTAAGGAGGCTAGCGGTGCTGTGTCGGAGACGTCTTCGCCTCAGTCGCAGGCGTCCCAGGCTTCTCAGGCGTCCCAAGTGGCGTTGGACCACTCGTACTGTCGCCCGCCGCCCACTGAACGACCTACCACTACACATCTACAACACGATCACGGTTACACTTGGATGGCTGAACCGGAACCGGAAGCAGAATCGCCACCAGTCGCCATGGAAGAGAAGAGACGGGAGAAGACGGAGAGACCGTACAAAAGAAAACATCAGAATAAAAAGTTATCTGAAATTCAGAATAAATTATACGACGGTCGCGATGATTATAACAATAAGTACTCGTCCGTGACATTCAAGCAGCGCGATATAATGGCGGAGGTCCAAGTGATGTACGAGTTCCTCACCCGCGGTATAGACAGAGAGGATATAGAGTACCTCAGGCGGGCGTACGAGGCTCTGTTGGCGGAGGATGCTCAGGGGTACTGGCTCAATGACACCCACTGGGTCGAACATCCGCCCACTGACCTCACGTACTCACCGCCCAAGAAGAAATCCAAGCGATACAATAACATCTACGAGGACTTGCAAGGCCACTCGAGCGGTTCAGCACGTACGGAGGGCTACTACAAGATGGACGCCAAGTTGAAGGCGAAGTACAAGTATCACCACGGAAGAACCGCTGCGTTACCCCCGCCTGATGATAAGAAAGCCAGCAAGATGCAGCTGCTGTCGAGAGAGGCGCGCTCCAACCAGAGGAGACTGCTCACGGCATTCGGAACCGACACTGACTCAGATCTCCTCAAGTTCAATCAGCTCAAGTTCAGGAAGAAACAGCTCAAGTTCGCCAAATCTGGTATACACGACTGGGGTCTCTTTGCTCAGGAGGCGATAGCGGCGGACGAGATGGTTATCGAATACGTCGGTCAAATGGTCCGTCCCATAGTAGCGGATGTCCGCGAGGCTCACTACGAGGCCACTGGCATCGGTTCTTCATATCTGTTCCGTATAGACTTGGACACTATTATTGATGCAACCAAGTGCGGTAACCTGGCGCGTTTCATCAACCACAGCTGCAATCCAAACTGTTACGCAAAGATAATAACTATAGAATCACAGAAGAAAATCGTCATATACTCGAAACAGCCCATAGGAGTCGACGAGGAGATAACCTACGACTACAAGTTCCCTCTCGAAGACGAGAAGATACCTTGCCTGTGTGGAGCGCCGCAATGCCGTGGCTACCTTAACTAG

Protein sequence:

>DPOGS207038-PA
MNGGMEHKTPGHNAVLHKGPKNYKLLIDPFLVKGATKVYRYDGTVPGTSYPSIQCRDPRPQPSRIWNKLEPADLPIPRFRIDKNYVGVPPQLEITIVNLNDNIDKAFLSDMMNKVGPYEELTIFYHPMTNRHLGFARIVFQDVKYSKICIEKYNGKSVMGQVLEVFHDSFGKKCQEMFEDKTVEKKPQPAPIKPPEDARVAKLDPALSKRLEDSKLVDKDPYLRKELEHNDSNTRWSDDERDREYKHRLRSRSERDRDIDRDRDGNRERERHRDRYARTSEQSESYSSAHVEIPYAPTPVPYDPYYQTPGYGYGYGTSAGAVWWGDWRQPHTSHHHSHIFLKSEQSSSSTWTAAGEPTPSPRHTPLAAPQTPYTPAPPTPLPEKEVKCKPEEPLPPSTSVVSDPEPKPPPPSDEPKNVDLDTRIALLLKGASGGGGLAPPFLSLGMTSEEEDEDRKPRNIPDLDTHNPPSDDEGSVSEDRESIISLNQNREVNPEPLSNTPSPYLSREFYLECLKATVERKAKEEERKKFPPIDKIGSDISSSEDELLTGEEPRRSPVNPPDRDQDNLDDDQMSLSSLSSTEAKIEEQVPAEAYYYPPAHPHYYQAMWPTTAYPPGAVGAMGSVAAMGPVGAVGPVGAVGAAYPAAGDMSLYAGGFAPPVIHSYPPPRTVTHEELDNPYYPTINSVIERVTTELKQILKKDFNKKMIESTAFKNFEVWWDEQSRKTRQTVKQTKEDVGQPLQDVSNKKEESVDSIKSIMESRDLGLDLGGYSVGIGLGLRATIPKMPSFRKKRKIPSPVVMDEDSSKRLSDQEEIVQNSDEEKEVPTSPRNRTTGSYLSTGRRRQSSSSSRSSSSSSSRSSWSGSERSVRKVAPRIYSDTDDSDLEDAEVQQIKLVSNKERLRRVYSSSSDSEEEQRRREKTPIPEVEASDDRLGSPILSPEEEPRDTILDRVYSDSEEEREYQERRRRNTEYMEQIEREFLEEQRRGQQTSDTDAQQQNDSITEPKQEKSRSSPSKNYLKSPEKNKMAAEGDVEEGEISSEEEPLEVRRKKEKKQKKKTDKRRRVTSVSDHSFTESAVSVNGVKEASGAVSETSSPQSQASQASQASQVALDHSYCRPPPTERPTTTHLQHDHGYTWMAEPEPEAESPPVAMEEKRREKTERPYKRKHQNKKLSEIQNKLYDGRDDYNNKYSSVTFKQRDIMAEVQVMYEFLTRGIDREDIEYLRRAYEALLAEDAQGYWLNDTHWVEHPPTDLTYSPPKKKSKRYNNIYEDLQGHSSGSARTEGYYKMDAKLKAKYKYHHGRTAALPPPDDKKASKMQLLSREARSNQRRLLTAFGTDTDSDLLKFNQLKFRKKQLKFAKSGIHDWGLFAQEAIAADEMVIEYVGQMVRPIVADVREAHYEATGIGSSYLFRIDLDTIIDATKCGNLARFINHSCNPNCYAKIITIESQKKIVIYSKQPIGVDEEITYDYKFPLEDEKIPCLCGAPQCRGYLN-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: