MonarchBase - Protein-coding gene

DPOGS204341
Transcript	DPOGS204341-TA	4680 bp
Protein	DPOGS204341-PA	1559 aa
Genomic position	DPSCF300142 + 39249-59294
RNAseq coverage	430x (Rank: top 28%)

Annotation
*Heliconius*	HMEL021173	0.0	61.31%
*Bombyx*	BGIBMGA007245-TA	7e-168	48.65%
*Drosophila*	snama-PA	7e-107	43.14%
EBI UniRef50	UniRef50_UPI0002246B68	1e-129	66.15%	UPI0002246B68 related cluster n=1 Tax=unknown RepID=UPI0002246B68
NCBI RefSeq	XP_001603499.1	3e-130	66.15%	PREDICTED: similar to GA16823-PA [Nasonia vitripennis]
NCBI nr blastp	gi\|383860160	9e-130	64.91%	PREDICTED: uncharacterized protein LOC100877553 [Megachile rotundata]
NCBI nr blastx	gi\|270012359	0.0	35.16%	hypothetical protein TcasGA2_TC006501 [Tribolium castaneum]

Group
Gene Ontology	GO:0005634	9.3e-28	nucleus
	GO:0008270	9.3e-28	zinc ion binding
	GO:0003676	1.9e-05	nucleic acid binding
KEGG pathway
InterPro domain	[3-76] IPR014891	9.3e-28	DWNN domain
	[239-312] IPR013083	1.7e-15	Zinc finger, RING/FYVE/PHD-type
Orthology group	MCL25327		Lepidoptera specific

Nucleotide sequence:

>DPOGS204341-TA
ATGTCTGTGCACTACAAATTCAAAAGCGCATTGGATTATGACACCGTTACTTTTGATGGCTTACATATATCTGTAGGCGATTTGAAAGCGGCTATTTCACAGCAGAAGCGAATAGGAAAAACTTCGGATTTTGATCTTCAAATTACTAATGCTCAGACAAAAGAAGTCTATGTGGATGACAACACATTAATTCCAAAAAATACTTCATTGCTCGTGGCCAGAGTACCACTTGCTCAGCAGCCAAAAAAGCAGTGGGAAGGTGCAAGCAGTAGTCAATCAAATCCTCTAAAAGATGTTACCCTCAATAAGGGATTGGCGGACTTGTCTCGCATGGAGGGTAGTGAACAGGATAAAATTAATGCTATGATATCACAGTCCACATTTGATTATGATCCAAGCAATTATCAAAAAATCAGAGGGCAGAATCAACGAGGAGCTGTACCATCTAATTATATTTGTTACAAGTGTCAGAAACGTGGTCATTGGATCAAAGACTGCCCAGCAGCTCTTTCCGGTGATCCAGTAGAGATAAGAAGAAGTACAGGTATTCCCCGTAGTTTTATGGTGCCAGTTGATGGGCCTAAGGCACCAGGAGCCATGATGACCCCAAGTGGAACTTTTGCTGTGCCAGCAGTGGATCATGAGGCATATTTAGCATCAGAGAGTGCTGGAGGAGCTGATACGCCAACAAATGCTCCCGTAGCTCCAGAACCAACAATTCCTGATGAATTAATTTGCAGTCTCTGTAGAGATCTGCTTACTGATGCTGTCATGATACCATGCTGTGGAAATTCCTTTTGTGATGAATGCATAAGAGGAGCATTGTTGGAATCTGAAGACCATGAATGTCCTGACTGTCGCGAGAAAGAAATTGCGCCTACTACATTGATTCCTAATAGATTTTTAAGAAATTCAGTATCGTCATTTCGTAATCAAACCGGCTACAGCCGACGAGCGCCACACCGACCCTCGGCTGCCCCGCCAGTTATTGAACCACCTCCAGTTGCACCGGTCCAACCTATAAATATAAACGGCCCGCCCCAACCAGCGCCCCTCAATAACGATTCGCGCGTGTCCGGGTGTGGCGGCGATAAAGAGACGAAGGGAAGCAAGGCCGAGGAGTCGGACGGATCAGCCGATGATAATATCACCGTGACCGTGCCACCCGCACACGCGCATCACTCTACGAACGAACCACACGGGCCTGTCGGGCCTCAGACTTCTCACGGACCCCACGGGTCTCGAGGGTCTCACGGGTCCAGCGGCGCTCACGGGTCTAAAAGGCCCCGCGGTCCCCAAGGGCCTTACGGTTCCCACTCGTCCCGTCCATCTCACTCGAACCATCGATCTCGCTACGGTCCTCCTGTTAAACCACCTGAGATGGACACGCCGCCGTTACATATGCCTCGAATCGATGAACAACGAGCGAGCACACCGACAATAGACGAACGCAGGGATGTTATTTCTTCTCAGGTGATTTATAATCGCGGTCCACCGCCGTACTTGCCCGCCGTGCCGCCTCCGTCTCAGCATTACCCTAATCCTGCTTTCGGTCGTCGCTACCCTCAAGACGCGTACCAGCCACCACCTCCAGGCATTAAGGACTCCCCCAACGGGTCTCCGTCTCCTCGGCGCCGTCACCGCTCCCCCCTCCGTTACCGCAGCCCCCTCCGCTCCCCGGCCCGCTCCCCTCCGCGCTCCCCCCGCACCCCGCTCCGCTCCCCTCACCGCTCGATGCCGCCACACTCGCCGGTGAGAACGCCGCGACGATCCGCCGCCAGGTCGCCGCCGAGGACTCACTCGCCTCACAGATTCGCCGGCGTTTACGATGAACTGTTGTCGCCACCACGTCGTAGTGTAGAGCCGCCATTCGGAGCCAGGTACGCCTCTCGAAACAATATTCCGCCGCCTGGATATCCTCCTATCACTAGTAAACCAATGCCTTTAATGGCAAATTTAATCTTACCCAACGAGCCCCCTCCGGGTTATCGCAGTCGTTACGATGCGCCACCATTTGAAGATATTCCACCTGGAGTTGAACCGACTGTTCCAGGATTTGAGCCATCTCCATTTGAGAAACCTATTTTTGGACCATCAGGTACTATGGAAAGAGATAGATTACCACCATCTAATTATAGAGATCCCTATAGAGCACCGTACGTCGAGGGTCCGGCTGGATATAGGGATAACCAAATGCCACCACTTCAAAGTGATATACCAGGTCCCATAGCGGAGCATTCCCAACGTTATAGAGATAACTTTAGAGCTACAACACACCCATACCGTGATCAAGGTCCAGTATCTTATAGAGATGGACAACCATACCGAGAAACTGGATCTCAGGCTTCATTCCGCGATAATAACTTTAGAAATGGGCCACCCTCTCTTTTTAGAGACAACAATTTTAGAAACAATCCATATAGGGATCCGAATTTCCGTGAAAATGTCCCACATAATTTCCGTGATGGATCTGCGCCTTTTAGACCGCCTAGCGTGGATCCCCGAGAGCCAAATTCTGTGGTGTATCCTGATCCTAATTACAGAGAAGGTTTTCGTGATGAAAATAACACTAGTAGGGATGTGCGACCTGGGTATCGTGGTAGTGTCCGCAACAGAGGTGGTTCTAGGCGTAATCCAAATGACCATGAAAGACATCGTGAGAGAGACGGACGAGAAAGAGATCGTTTCAATGAAAATCGTGAAGCTCCCGATCGTACAGAAAGACCACGTGATGTTGATAAGAGATCTGGTAATAGAGAAAACCGTGAAGAACGCTCTAGAGAGTATGATAGAAATCGAGATTATGAAAAAGAAAGAGATCGTGGTCACGAGAAACAATCCCCAGATAGAAAACAACGTGTCTCACCCAAACGTAGTCGAGATACCCGTGAAAGAAAACAAAGTGAAACGAGGGCCCGTTCTCGTGATCGGGAAAGTAGGAAAGAAAAGAAAGAAGAACGTACACGTGATAAATCATCAGCGGAAAGAAATAGAGATCATAAAGAGAAGGATAAAAAGGTTAAAGATAGGAAAAAGAAAAAGAGAGAAAAAGAAAAAGAAGTTGAGAAGAAAAAAAAGCGCGATAAAAAGGACAAAAAAGATAAAGATGTAATAAAGAAAGAAGAAGACGAACAGGAAATATCGGATTCTAAACAAGATGCTAATGCAGAGCCTAAAGAAAATACTGATCAGACTCTTGAGCTCAAAGCAGAAAATCCTGAATCATTAACAAAAACTACCGAGAATGATAATCTTGAAAAATCTGATATTCAAGAAAAAACTAATAATGACCTGTACGGTGACGAAGGTACTGAACTACTAGGGAAGGAAGTACAAACCTATAACAAAACCGAAGAAAAGGAGGACGTCAATGAAAACAAGTCTATTGAGACATTAAACAAAGAAGAGCCGTTTGACGGTATTGAACTTCAGGTGCCAACTGATGAATTGGAAGTGGATATCGAAGCTACACCTAAAAATAATAATAACAAAGAAATGTTAGCGCCACTACCCGCTTTATCAAAATGGGAAGTTGAAGATGATAATGTTGAAAAGTCTAAGGAACCAGGTGAAATAACCTCACCAGAAGAAGAAGAAGACGGAGGTAAAGTAACGTCTGAGGTTATAAAACGTGCTGAAAATGCAATTTTTTCCAAAGCCATTAGTACGTTGCGACCTATAGAAATTAAGAAGATTAGTAGCGATCGATTGAAACTGTATAGCGATGACACTCAAATAAAGGGTTCTTTAGATAACATACAAATCACTGTTCCTGTGTTGAATGAGGATCAACAACTAGCAGATCCCAACAAAAAGAAAAGATATTCAAAAACACCTCCTCCTCGACTGTCAGTCAAAGAAAGACTCGGGGGAAAAGTTGAAGAGGTTCGAAAAGTACGAGAACCTCGAGTCGTCCAAAGTACAGTTGAAAGAGTAAAATCCAGGTCAAAAACACCTAAACATGAGCAGATACCTTACCGTCGAGTAACTGTTGAAAGAGATCGAAATCGAAAGCCTGAAATAGTGGCCAGGTTAGACGGATTAAAGGGTGAAAGAAAAATTAGTTCTGACGTACAAAAACCCGACGAAAGTTATCGTTTCAACAATGACAATGATTATAAGAAAAGGCATTACGGAAAAGTTAAAGATGAAATGAAGTCTATAAATGATAGACTTGATACAAACTCACAAAACATACAAAAAAATGACATTACTCAAGAAGTTAAAGTTTTAAATGAAAGAGAACGTAAAAAATCTGTCTTAGACGAAGCACACTTCGAACCCGATTATGATGAAAATGTTGAATCTGATAATGAAGCAAAAGTTGAGCCTGGGAAGAAACGTGAACATTCCCGGGATCCGTTAATCGCTGGAACTAATGAACCAAAAAAGGCAAAATTCGACACTGAAACAATTAAATTAGATCTGACGAACGTCAAAAAGAAACCAGATTCTGACAGCGAATCATCGAGCGATTCTGAATATTCTTATTCCTCCTCATCATCTGACGCTCGCAAGCGTAAAAAGAAAAAGAAGAAAAATAAAAAGAAAAAGAAACGAGCTGCCAGCGACAGCGATAGCGAGTCGGACTCCAGCTCCGACGATCATAAGAAAAAGAAGAAGAAACGTAAACATAAGAAGAAATCGAGTAAGAAGAAAAAGAAGTCTAAACATAAGTAG

Protein sequence:

>DPOGS204341-PA
MSVHYKFKSALDYDTVTFDGLHISVGDLKAAISQQKRIGKTSDFDLQITNAQTKEVYVDDNTLIPKNTSLLVARVPLAQQPKKQWEGASSSQSNPLKDVTLNKGLADLSRMEGSEQDKINAMISQSTFDYDPSNYQKIRGQNQRGAVPSNYICYKCQKRGHWIKDCPAALSGDPVEIRRSTGIPRSFMVPVDGPKAPGAMMTPSGTFAVPAVDHEAYLASESAGGADTPTNAPVAPEPTIPDELICSLCRDLLTDAVMIPCCGNSFCDECIRGALLESEDHECPDCREKEIAPTTLIPNRFLRNSVSSFRNQTGYSRRAPHRPSAAPPVIEPPPVAPVQPININGPPQPAPLNNDSRVSGCGGDKETKGSKAEESDGSADDNITVTVPPAHAHHSTNEPHGPVGPQTSHGPHGSRGSHGSSGAHGSKRPRGPQGPYGSHSSRPSHSNHRSRYGPPVKPPEMDTPPLHMPRIDEQRASTPTIDERRDVISSQVIYNRGPPPYLPAVPPPSQHYPNPAFGRRYPQDAYQPPPPGIKDSPNGSPSPRRRHRSPLRYRSPLRSPARSPPRSPRTPLRSPHRSMPPHSPVRTPRRSAARSPPRTHSPHRFAGVYDELLSPPRRSVEPPFGARYASRNNIPPPGYPPITSKPMPLMANLILPNEPPPGYRSRYDAPPFEDIPPGVEPTVPGFEPSPFEKPIFGPSGTMERDRLPPSNYRDPYRAPYVEGPAGYRDNQMPPLQSDIPGPIAEHSQRYRDNFRATTHPYRDQGPVSYRDGQPYRETGSQASFRDNNFRNGPPSLFRDNNFRNNPYRDPNFRENVPHNFRDGSAPFRPPSVDPREPNSVVYPDPNYREGFRDENNTSRDVRPGYRGSVRNRGGSRRNPNDHERHRERDGRERDRFNENREAPDRTERPRDVDKRSGNRENREERSREYDRNRDYEKERDRGHEKQSPDRKQRVSPKRSRDTRERKQSETRARSRDRESRKEKKEERTRDKSSAERNRDHKEKDKKVKDRKKKKREKEKEVEKKKKRDKKDKKDKDVIKKEEDEQEISDSKQDANAEPKENTDQTLELKAENPESLTKTTENDNLEKSDIQEKTNNDLYGDEGTELLGKEVQTYNKTEEKEDVNENKSIETLNKEEPFDGIELQVPTDELEVDIEATPKNNNNKEMLAPLPALSKWEVEDDNVEKSKEPGEITSPEEEEDGGKVTSEVIKRAENAIFSKAISTLRPIEIKKISSDRLKLYSDDTQIKGSLDNIQITVPVLNEDQQLADPNKKKRYSKTPPPRLSVKERLGGKVEEVRKVREPRVVQSTVERVKSRSKTPKHEQIPYRRVTVERDRNRKPEIVARLDGLKGERKISSDVQKPDESYRFNNDNDYKKRHYGKVKDEMKSINDRLDTNSQNIQKNDITQEVKVLNERERKKSVLDEAHFEPDYDENVESDNEAKVEPGKKREHSRDPLIAGTNEPKKAKFDTETIKLDLTNVKKKPDSDSESSSDSEYSYSSSSSDARKRKKKKKKNKKKKKRAASDSDSESDSSSDDHKKKKKKRKHKKKSSKKKKKSKHK-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: