MonarchBase - Protein-coding gene

DPOGS200462
Transcript	DPOGS200462-TA	5292 bp
Protein	DPOGS200462-PA	1763 aa
Genomic position	DPSCF300260 + 202770-220800
RNAseq coverage	345x (Rank: top 34%)

Annotation
*Heliconius*	HMEL014564	0.0	56.58%
*Bombyx*	BGIBMGA011407-TA	0.0	50.52%
*Drosophila*	egg-PA	6e-101	48.26%
EBI UniRef50	UniRef50_E9J254	0.0	39.38%	Putative uncharacterized protein (Fragment) n=1 Tax=Solenopsis invicta RepID=E9J254_SOLIN
NCBI RefSeq	XP_001603698.1	0.0	38.43%	PREDICTED: similar to histone-lysine n-methyltransferase [Nasonia vitripennis]
NCBI nr blastp	gi\|350403620	0.0	39.40%	PREDICTED: histone-lysine N-methyltransferase SETDB1-like [Bombus impatiens]
NCBI nr blastx	gi\|350403620	0.0	39.62%	PREDICTED: histone-lysine N-methyltransferase SETDB1-like [Bombus impatiens]

Group
Gene Ontology	GO:0005634	2.7e-18	nucleus
	GO:0008270	2.7e-18	zinc ion binding
	GO:0034968	2.7e-18	histone lysine methylation
	GO:0018024	2.7e-18	histone-lysine N-methyltransferase activity
	GO:0003677	6.8e-18	DNA binding
	GO:0005515	1.1e-09	protein binding
KEGG pathway	nvi:100120014	0.0
	K11421 (SETDB)	maps->	Lysine degradation
InterPro domain	[1413-1524] IPR007728	2.7e-18	Pre-SET domain
	[1312-1431] IPR016177	6.8e-18	DNA-binding, integrase-type
	[1411-1516] IPR003606	2.6e-16	Pre-SET zinc-binding sub-group
	[1339-1395] IPR001739	9e-10	Methyl-CpG DNA binding
	[1543-1687] IPR001214	1.1e-09	SET domain
Orthology group	MCL11836		Single-copy universal gene

Nucleotide sequence:

>DPOGS200462-TA
ATGGCATCAAAACAAAACATGGAAGATGAAGAAAATCTCGTTGGAAAAAAAGAGCTTGATGATACGACGAATGTTAATGATCAAAAAGACGGAGAGGTGTACGAAAGCGTTGATGATGATATGGAATTAAAGTGGGAAGATGATGATATTGACGACGTATCGATCACAAATGAAGACGCGCTTCTCGAAGATGTAGCTATGGACAATGATGATAAATTATTACCTTCCGACTCTGTAATACCGGTAGCTAGCCAAGAAAGTATCACGTATGAGATCAATCCTAATGAATTTATAAATAAAGCGAATTTAGATGAAACGTTTGAACCGGCGAAAGCGCATGGCTTAAATAAACCCGACATGATGCTGGAGATACTAACTCATAACCTTAGCGATTTAAGTGACGATGAAGATCTTACAAATCTTAAGATGTCGCCTGACGTCGATTTGGAACGGTGCAGTCCTAACAAAGATTCACAGATTGAAAATAAAGCTGACTTCATGGAAACTGATTTGAATGATGATTTTGATAGAATTTCATCACTAGTTCATGAAAATGTTGATGATGACTTAGATAAAGGCGCAGATATTTCAATGTGTGAAGACAGCAAGCCCGCAGAGACATCACTATCTAGGAAACTTAGTGTGAACGATGACTCCATTGATGAAGATATTCTACTTGCAGATGATGATAAAGATGAACAGGATGAAGGTGGAATGGAAGAACTATTGGATGATAAGATTGATTTGGATGCTGTTGATATATTAGAGATTAATTCTGAAGAGAAGTTGGAATTAGAAAGTGAGAAAAATAAGCTATTACAAAATATTCCCGATACAGATGGTCTAAAACTTAATAATGAGGAAGACGTGTCAGGAATTAAAGCAGAGTGTGGAGCTGAATGTAAAGAAGTAGACGAGATAATAAACGTCCCGAGTCCAAAACCAGAGATATCAGAAGCACATGTACCTAAAGTTATAAATGCAGATCAATCCAATGATTCACCAACTTCAGAAAAGGAAGTTCAGGTCTCAAAAACTGGTATAAAAAGGAAAAAATTATCTTTGAGACTGAGATTGGATAAAACACAGAGCACAGGATCTGATGTGATTATGGATGAACACACTTCATTGAAATCTGATGGATCAGAAGTTGCATTAAGGGACCCGGGAAATGATCAAATTAATACAAATAATGCTCACTTGACCTCCGAAGATGTAGCAAATCAACCAGACATTGCAAACAAAGATTTAATTACCGCAGCAGACTTGGAATCCGAACATACTAAGAGAAAGAAAGATTCCGAGGACACTAGTTCACAACTACCAGATAACGATGTGTCATTAAAACCTAAAAAAGACCTGAAATCTAAGGAGAAGAAATTAACCCCTGATATAGAACCGCAGCCATCGACGAGTGGTTCGAAAAACATTAAAATTAATATTGAATCAGCGTCAAAGAGTGACAGTCGACTAACTTCAAACATCTCTAAACTAAGTTCACCGGCAGAAGACATTCCTGGAACAACTGATAATCTTGACCTCCTGGCTGAATCGTCGCGCGTGACACATGACGATGAAGCAGAAGATGAATATATGGATGACGAGGAGGGAGAGGATTTTGAGCAGTTTGACGAAAGCAGCAATCAGATGGCAGCGGAGCAGTCCGAGGATTCAGAGCAGCATCACTCGGATAACGCTCACGAGACAACACACAGTAATGAAAAGGAATTCAGCTTTACCATCACTGATGTCGTCACTGAAAATGTAGTTAAGGTGGACATTGAGAATCAAGACAGTATTAAGTCAGAGAATTTGGAATCAGTGCCGATAGGAAATGTGTGTCAGAACATGGACGTGTCCAAGGTTGGAGGAATAGAAACCGATTTTGGAAATGAGAATAAAAAGTTGACATCGGAAGAAGAAAAGAATCTGGATTATCAAGACGAGACAAAAGATTGCACCGATGTGAAAAAATCAGAGGCCCTGAGCTATGTTGAGTTAGAGGAGAGCTCGGAAGAAGGTAATCATGAGTTAGATGCTCTAGACGCAAATAAAACTGATGAAGTAGGCAATATGAATACAACACAAGATATCAACGAAGATGAGCCAGCCAAGACAGAGGACACGGGACTGGATGACAGTAACACACTAGTTGAGGATACTACGAACCAAGATACAAAAGCATTGGATAAAGATGACAAGACGAAATCCCAAGGTTTGGAAGTATTCAATCTAGACTCGGACGAGGAGGATGTTGGTGAAAAGAATAAAACGGACATTTCCCATCAAGAAACCCCTGAGAATCCGAAGCCCCAATCCCAGTGGGTGAAGTGCATCAACAAGTCCTGTGCCAACACATCGTCAGACTATTACAAGGCTGACGGCATCACAGTCAACTTCTATGACCCGGAGAGAAAGAAAAGAGGCTATGTTTGCCAAACCTGTCTCAATTTGGTGGAAGAGAGGAATCAGTTGTTGATCAGCGGCATCAAGTCCCTGGTGCCGCTGCTGAAGCTGGAGCCCGGCCGGCCGGAAGAGGATCTGGTCGAGATATCAGACTCGGAGTCCGAAGACGAGGCGGAGCCGGAGGACGACGATGACGTCATAGGAGTGGAGGGGGCTAGGGTGATAGAAGAGAAGTTGACTGATGTCCTGAACGAGACGTGGGTGAAGTACAACTTGGATGACCGGCTGCAGGAGGCACAGGACCAGCTCAAACAACAGCTGGAACAGCTGCAAAAGGACAGTTTGGAAATCAACCAGCTCCTAGACGAGTGCCAGCTATCCACAGACAAGCTGCGATCAGAGCTCTACTCTAGCTTCGAGCGCGACATTAAAGAACTCCCATCGCTTCTAATATTCGACGTGCCTAATTGCTCTTACACCTGCGTCGATCCATCCGGAGAGGGAAGCAGACTACTGAAGCGCAGGAAGTCATCTGTATCCGAGTCCCCGGCAAAGAAATCTGCATTGTCAACAGGCGATCAAGACACAAACACCAAAGACATGACAGACGAGAAAACGGAAGAGGATAATCCTGATGTGTCTGTGGTACATCTCTCCGTGGAATCCGCGCCGCCCGACCTTCCTCCCGCGGGGGAGGTAACCTACCCCCCCTTAAGAGTGGGGATGACGATCTACGCGTCCAAAAATGCCCTGGGTTCCTGGATGAAAGCCAAAATTGTAGAGATCACTCCGAAATCATCACTTCCGAACTGTTTTACGCTGTGTCGCGTCAAGTACGAATACAAACAGTCTAAGCCAACCAAAATATTACCAGCGAGGTGTATCGCCTACATAGACCCACCAGACGTTAGAATGACTATAGGTACCCGTGTGATAGCTCTGTTCAAAGACATAACCATGAAGGAGTCCTTCTACCCGGGGATTGTTGCTGAAATACCGAACCCAGTCAACAATTACCGCTACCTGATATTCTTCGACGATGGCTACTCTCAATACGCGCCGCACTCTAAGGTCCGTCTGGTGTGCGAGTGCGCGTCTCACGTGTGGGAGGAAGTACAGCCCAAGTCGCGGGAATTCGTCCGAAAATATCTCCTGGCTTACCCTGAGAGACCCATGGTGAGGTTGCACCCTGGACAGAGCTTGAAGACGGAATGGAAGGACAACTGGTGGTCATCCGTGGTGGTGTCGGTGGACGCGTCGCTGGTGGAAGTCCAGTTCCTCCAGCTGGACAGACGAGAGTGGATCTACCGAGGATCCACGAGACTCGCCCCCCTGTACCTGGAACTGCAGGCCGCGGAGAGACACAGGCCCAGGGCCCTGCCACGGGCACAGACCACGAGGACGAACATGCCCTACGTGGAGTACACCAGATCTGAAGAACAGACGAGCAAACAGGCCGAGACTTCGCCACAGCAACAACAGAGTGAGTACTACACGCCGAAGAAACAGGTGAAGCCGTACAAGATGGTGCCACACACTTGCTCGCCGGCGTGCAAAAGAACGGATGTTCTGGCACTTAAGGATTTGAGAACTTATAATCCGTTAGCCAAGCCGCTACTGAGCGGCTGGGAGAGGCAGATAGTTCTTTTCAAGGGCAACAAGGTTGTGTTGTACGTGTCTCCGTGTGGTCGCCGCATCCGCTCTCCGCGGGAGCTACATCGCTATCTGCGGACCGTTGGGTCAGACCTGCCAGTCGACCTCTTCGACTTCACACCATCCACGCACTGTCTGGCCGAGTTTGTGCTCAACAAATGCTACGTTGGCAAAAAGGATTTGTCCCATGGCAAAGAGAACGTCCCAGTGCCTTGTGTCAATTACTACGACGAATCACTGCCAGAGTTCTGTTCCTACAACACTGAGCGGACTCCGACCGCTGGGGTTCCACTCAACCTGGACCCGGAGTTCCTGTGTGGCTGTGACTGTGAGGACGACTGCGAGGACAAGAGCAAGTGCGCCTGCTGGCAGCTGACTCTGGAGGGCGCCAGGACGATAGGTCTGGAGGGGGAGAACGTCGGTTACGTTTACAAAAGACTGCCAGAACCACTGCCTAGCGGTATATACGAGTGTAATTCGAGGTGTAAATGTAGAGACACGTGCCTTAACCGCGTCGCTCAACATCCGCTGCAGCTGAAGTTACAAGTGTTCAAGACCCTCAACCGCGGGTGGGGGATTCGCGCCCTCAACGACATACCGAAAGGGGCCTTCCTTTGCGTCTACGCTGGAAATTTGCTCACCGACGCTACAGCAAACCTTGACGGTCTGAACGAGGGTGACGAGTACCTGGCGGAGTTGGACTACATCGAGGTCGTGGAACAGATGAAGGAGGGTTACGAAGAGGACATACCAGAGAACATCAAGAAGATGGATGAGGCGGAAATAGCGAAACAGCAGTTGATGCCGGACGACGAGATGGAATCCTCGTCATCAGAGGAAGGGAGCAGCACCAAGAACGGCGAGGAAGACGATGACTTCAGTCCCGGATACATCGGCCTGGGTGTAGCTAAAGAAAAGTCTATGGCCAAAGACAAGGATAAAACCGAAGCGAGGAAGGAGAACGAAGAGGATTGCATCACCATCAGTGATGATGAGGAAGTTCGAGAACCTTCAAACTTCACGGCCGCTGCTGGGATGGGAGCAAACGAATTTAAATCAAAATATAGGTCTGTCCGTAGTCTGTTTGGTGAAGATGAAGCCTGCTACATCATGGACGCCAAGGTAGCTAAAGAAAAATCTATGGCCAAAGACAAGGATAAAACCGAAGCGAGGAAGGAGAACGAAGAGGATTGCATCACCATCAGTGACGATGAGGAAGGTGGGGAGTCGTGA

Protein sequence:

>DPOGS200462-PA
MASKQNMEDEENLVGKKELDDTTNVNDQKDGEVYESVDDDMELKWEDDDIDDVSITNEDALLEDVAMDNDDKLLPSDSVIPVASQESITYEINPNEFINKANLDETFEPAKAHGLNKPDMMLEILTHNLSDLSDDEDLTNLKMSPDVDLERCSPNKDSQIENKADFMETDLNDDFDRISSLVHENVDDDLDKGADISMCEDSKPAETSLSRKLSVNDDSIDEDILLADDDKDEQDEGGMEELLDDKIDLDAVDILEINSEEKLELESEKNKLLQNIPDTDGLKLNNEEDVSGIKAECGAECKEVDEIINVPSPKPEISEAHVPKVINADQSNDSPTSEKEVQVSKTGIKRKKLSLRLRLDKTQSTGSDVIMDEHTSLKSDGSEVALRDPGNDQINTNNAHLTSEDVANQPDIANKDLITAADLESEHTKRKKDSEDTSSQLPDNDVSLKPKKDLKSKEKKLTPDIEPQPSTSGSKNIKINIESASKSDSRLTSNISKLSSPAEDIPGTTDNLDLLAESSRVTHDDEAEDEYMDDEEGEDFEQFDESSNQMAAEQSEDSEQHHSDNAHETTHSNEKEFSFTITDVVTENVVKVDIENQDSIKSENLESVPIGNVCQNMDVSKVGGIETDFGNENKKLTSEEEKNLDYQDETKDCTDVKKSEALSYVELEESSEEGNHELDALDANKTDEVGNMNTTQDINEDEPAKTEDTGLDDSNTLVEDTTNQDTKALDKDDKTKSQGLEVFNLDSDEEDVGEKNKTDISHQETPENPKPQSQWVKCINKSCANTSSDYYKADGITVNFYDPERKKRGYVCQTCLNLVEERNQLLISGIKSLVPLLKLEPGRPEEDLVEISDSESEDEAEPEDDDDVIGVEGARVIEEKLTDVLNETWVKYNLDDRLQEAQDQLKQQLEQLQKDSLEINQLLDECQLSTDKLRSELYSSFERDIKELPSLLIFDVPNCSYTCVDPSGEGSRLLKRRKSSVSESPAKKSALSTGDQDTNTKDMTDEKTEEDNPDVSVVHLSVESAPPDLPPAGEVTYPPLRVGMTIYASKNALGSWMKAKIVEITPKSSLPNCFTLCRVKYEYKQSKPTKILPARCIAYIDPPDVRMTIGTRVIALFKDITMKESFYPGIVAEIPNPVNNYRYLIFFDDGYSQYAPHSKVRLVCECASHVWEEVQPKSREFVRKYLLAYPERPMVRLHPGQSLKTEWKDNWWSSVVVSVDASLVEVQFLQLDRREWIYRGSTRLAPLYLELQAAERHRPRALPRAQTTRTNMPYVEYTRSEEQTSKQAETSPQQQQSEYYTPKKQVKPYKMVPHTCSPACKRTDVLALKDLRTYNPLAKPLLSGWERQIVLFKGNKVVLYVSPCGRRIRSPRELHRYLRTVGSDLPVDLFDFTPSTHCLAEFVLNKCYVGKKDLSHGKENVPVPCVNYYDESLPEFCSYNTERTPTAGVPLNLDPEFLCGCDCEDDCEDKSKCACWQLTLEGARTIGLEGENVGYVYKRLPEPLPSGIYECNSRCKCRDTCLNRVAQHPLQLKLQVFKTLNRGWGIRALNDIPKGAFLCVYAGNLLTDATANLDGLNEGDEYLAELDYIEVVEQMKEGYEEDIPENIKKMDEAEIAKQQLMPDDEMESSSSEEGSSTKNGEEDDDFSPGYIGLGVAKEKSMAKDKDKTEARKENEEDCITISDDEEVREPSNFTAAAGMGANEFKSKYRSVRSLFGEDEACYIMDAKVAKEKSMAKDKDKTEARKENEEDCITISDDEEGGES-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: