MonarchBase - Protein-coding gene

DPOGS215612
Transcript	DPOGS215612-TA	5580 bp
Protein	DPOGS215612-PA	1859 aa
Genomic position	DPSCF300041 - 2218184-2226247
RNAseq coverage	386x (Rank: top 31%)

Annotation
*Heliconius*	HMEL005917	0.0	74.41%
*Bombyx*	BGIBMGA003672-TA	0.0	65.71%
*Drosophila*	shn-PD	2e-173	41.64%
EBI UniRef50	UniRef50_UPI00021A6877	0.0	46.54%	UPI00021A6877 related cluster n=2 Tax=unknown RepID=UPI00021A6877
NCBI RefSeq	XP_001976135.1	2e-174	40.51%	GG20167 [Drosophila erecta]
NCBI nr blastp	gi\|340712385	0.0	46.54%	PREDICTED: hypothetical protein LOC100649920 [Bombus terrestris]
NCBI nr blastx	gi\|383851038	0.0	36.57%	PREDICTED: uncharacterized protein LOC100882107 [Megachile rotundata]

Group
Gene Ontology	GO:0003676	2.6e-14	nucleic acid binding
KEGG pathway
InterPro domain	[200-228] IPR013087	2.6e-14	Zinc finger, C2H2-type/integrase, DNA-binding
Orthology group	MCL15757		Insect specific

Nucleotide sequence:

>DPOGS215612-TA
ATGAAACGAGCCAACGACAAAGTACAACTAAAAACAGTTGAAGACAGGCGCGGCGCGGTATCGTGCGTCGTATGTACAAAAGTCGCGTACAAGATGCCGCTGACACAGGAAAAGCGAATGGACAATTTTCCCAATAGCAATGATCACAGTTACCTTCACAAGAAGTTCAAGAAAATGGCATCGCCAATATCGGTGCTTCCTGTGAACTCTATGAAAAATGAGGAAAGTGTGCATAAGGAATTAGGATTTTCACAGATCACAAGCAGCCCAAACCTAAAAAATGGAACCATTTCAGCCGCTCATCCAGAAATAGAGAAAATTAAAGATAAATACGCGAACAGAGGTATAGAAACAGATAATATTGTACAAACTAATTATAATGATGAAATCTGTAGGTTAAGTGGTGTTAATAACTATGTTCAAATAACTGGTAAGACCAGTTATAATGATGAATTTTTAAATAAGACTGAAAACGGTGAAATCGATGTAACTAAAGACACTTACAGTGGAGGAACTGGCCGTTACATCTGTCCGTATTGTAAATTACCATGTGCCAAGCCATCAGTACTACAAAAACATATCAGGGCTCATACGAATGAGAGACCGTATCCATGTATACCCTGTGGCTTTGCCTTTAAAACTAAATCTAATTTATACAAGCACAAGAGGTCAAGGACGCATGCTCTACGATCGCAAGGAGCAGATGTGTCCGTTGCTATTAACGAAGAGGATTTATCTGGAGGTTCCGAAAGTGATACTTCATCTACACCAACTTTTATGTCGGATCCTACCTCGGATGCTTCTTTGATACGCTTCCTTAATACGAGGCCTAATGATTTTTCCTCCCCCGAGCTAGCTAGCGATGGCAACACACAAATCAGCTCAAATTCTTATAATGACCATAAATCTAAAACAATTTATAAGCCCAAGTTCAGAGCAGCGTTATATCAGGGAAATGATGATAAAGATAAGATAAAAAAGAGTATTTCACACAATGCTGAGTTTCTTACAGAACATATCTCTAAAATTATATCAGATAATGAGGCCATTGTTGATGTTATTGAAACCCCTTTACAAAAAAAATATGGTAAAATTAAACAAATTGCTGAGAGTAAGCAATTCTCAACGGAAATCGACATAAAATCTGAAGTGACGCCTTTAAATTTAACAAAAAACAGTTACGAAACAGAGAGCTTGATAAGAAAAAGATCGCATTCGGAAAGTTTCGCACTGACTTCTGACGATCACAAGCATCCGTTGAATCCTGAGGGATCAATAATAAAGGATCTTTTGCTAAAAACTAAAGCCAATGGATTGAACTCCACCAACAGCTTGACTGGTGAATTGGTAGATGGGCTAGGGCCACTATATGTGTGTTCACAATGTCAAATAGTATACAGAAGTGCAGACAACTTAGAAATTCATAGATCGTACTATTGCAAAGGTGCACTTACAAATAATTGTAACATTTCTAGTAATGTCCCAAAAGAAGCAAAGTATGTCAGACCAGATAATGGTTACGTGAGAAGTAATTCCATTAACGTCCGATTGCCCGAAACAAGTGCGTCATCAACTAAAGTGAATTATTTAATGAATTCACCTCCAATAAAAAACAAGCCAGATAATCTTGTCATATTAAAAACGGAATGTAGCGACGTGATAGCACCGCTACCATCACCAGGGCCGTTACTTGGTAACACAAGACTTGTTGATAGCAGACTACCCTCAGAATGTAATAAAAAAACGGAGGGTTTGAAATTGAAAACAAAAGAATGTAGCCCCAAAAGAAGGTTTGACAGTAGATCGGAAACTAATAGTCCGAGGCTTATAGAAAATATATCTCCTCGTTCAGCTGATTTGTACGTTCATTCGAAAATAAGGTGTGTTGATATTAGCTCTCCGTCATTGAGAACTATTGAAGAAATATCGCCACATATAAGACACAATTCTACATCGCTTCAAATGTTCGGAGGTGAAGTTAAAATAGTCGATCATTCTGGCAGCACTACCACTCTCCGAATCGAACCTAGTAAAACACAGCTATCACCGATTCTAATCCACCAAAACCTTTCGCCATCTAAATTTGGAAATGACTCTGAAGCAAGTAGTGTCGTTGTAAGATCGGGTCTTCATTCCGGTGGTACTATAGTGCATAATCCGCCAACACCGAAGGAAGCTATTAATAATCATCAAGTTCAAACTCCTAGAATTGCGTCATCAACCCCGAACGCTCAAAACACGAACATGCACGTTCATGATATTCCACATTTCCAGTTTCCGCCGCTGAGTGCTATAACAGCTTATAATCCATTAACATTGCCGCCTCTCAGTCCATCTCCGTCACCAAACGGTGCAACTACTATTATGCACGGCGGCAAACTCATACCTCATGTTCCCGGAATACCAGGACCTAATATACCTGGTTTATTCATGACAAATAGCAATTTACAAATGAAAAACAGTGATAGCCATAAAAGTGTCACGAAAACGACCTCAGATAATAATCAACATTTATTAACTCTTAATGTATCTACGGGAAAGGGAAGTGTTATATCAAACTACGATAGGATTCCTAACAACTCGAGAAGTCCAAACATCAGATCGATGAGTATGGAAGTAGAACATAACATTAGTAATAAAGATACGGATATTCAAAATATGTCTTCAATGCCAATAATTAAAATAAAACACGTCGATGAACCTATATTAAAGAATTTCTCTTCTAGTTGTCTTCTGAAATCGATTAAGAGAAATGCCGATGGAGTACCTAAACATCCTGTATTAAAGGAAAATACGAACACATCATTTAATAAGACCAAAAATAAAGACTCTCACGTTCATCCGTCTCATAAAGTTATCGATATAAAAGCTGAGAATGATATAAAGAATTTCAATTTCGAAAACTTCATCACTAAAGCCGAAATATACAATAATCAAATTCAAAATAAAATCGACATCGAAAGAAACAGTAATGTTTCGGAAACCTTTGTGACTTCAGTGCAAAATGAAAGGTCAGAGACATCTTATTTTCAGAAGAGTTCAATATCAAAGTCTAATTCTGAGGAGAGAAAACCGAAATTTCTTAGACCATCTACTCTACCTCTAAAGCCGGGCACGTTTACCCCAAAAAGACATCACGGCATAACGCCCAATGCGAACACAATGCCATTGGTGTCACCAGAAACCCCACGCCCAGCAAAAGCATACGGACAACTTTATTTAAACGGAAATGCATATACATATCTGGGTTTGAAATGTTCAACAAAAGTATTTTATTGCACTATCAATCGTCCACAGCCCACATACGTACCGAACCAGCATTTCCTATCCATGTACAGTAACTGGCAGTTATTATCTGAGTTGACGCCAGACCCGCTGGGATTGTCAGCCTCGTCTGCTATGTCTCTATATGACTCACGTCACAGACCGCAGAGCTTGGCCGTTTCTGTAATCAAACAGGATCTCATTCTGACTCATTCATCGCAATGGAACAAAAATTCGAAGGACGGCAAACAGGTGATAACTTCTATAGACTCTAAAAAATCGGAAGAGATAAAAAATATTTCCGATAACACAGCTACATCCAAGAAAGAATTAACCGGTGGATTTGAAAGTAACGAGGAATATACATATGTTCGCGGACGTGGCAGGGGACGATATGTTTGTTCGGAATGTGGAATAAGATGCAAAAAACCATCAATGTTGAAAAAACATATCAGGACACACACTGACGTCCGACCGTATACATGCGTCCATTGCGTTTTTAGTTTCAAGACGAAAGGGAACTTAACAAAACATATGAAAAGCAAGGCACATTATAAGAAGTGCTGTGAGCTAGGAATAAATCCAAATGAAGGGAACGATGCCGAAGGCTCTGAAATGGCGCAGTGTTCCGGTGAAACTGATGATGAAACGGATTCAGACGGTGATGAGGGAAATGAGGGTGAAACAGAATCCAGTGATACAGAGGTTTTTAAATCTCGCCTGCCGGAACACGAGGCTGCCCACTGCTTGCTATCTCTCGGCGGCAGTAGACCTGCCACCTCAGCCACTCCGGGCTTAATAACTAGCGCTAGGCCTACAACGTACCCCTACACTCCTATGTTACTAGAAAATACGTTAGATGTTGATCAAGATAAAGTCGAGAGTGTAAGAACACCCTCTACTGATTCTAGAATAGATACGGACAATGAGCCCATGGATCTCAGTAAAAATGAATTAAGAACTCCAACGAGCGTGATGGAAATTCCCACTGAAAGAGAATCTAGCGTCATGGCCTGTTTGGCTTCCAATACTGCGAAGCTTCCCCATCATCAATCACAGTGGACCAACGGAGAGCCAATGCTGCACACGTATCTAACAGAAAGGGCACTTTTAGATTCTAAGATTAAACAGAGCCAATTAACATGTAATTCTAAAATAAGGAAGATTGATCTCGAAAATTCTTTATACCTTGAAAAAGAAACCGCTGAACAGGAAATTTCGAATCCAAGAAATGTTCTTGATACGATTACAACAACAACAGCATTTTCTAAAGATGAGTCAGTTTCTATTGATAATTCTCAGAATTGTTTGAATCTAACTAGTGAATCCAGAGCTCGTACACCTAACAACTCCAATCCAGAAAATGCTAAACATGTTGTGTCCGAGTATTTAAAACATGCTAGGATAAATCATATGAAAACTCTCGACGATCCTAACCATTTAGATATATCCAGTGACGACAGCAACAGTGGTAAAGTTAACATAGAAGAAAAGACTAAGGTAGATGAGGTCTCAGACTGTGATGGAATGAAATTATCTTCTTCAGAATACGATCCTGTAGCTTCCAAAGTAGTGATCGGAGTCGGGGGAGTATTTAAAGTGACCAAAGGGAAAGAGTTTGACGGATCGGCTTCTTACTCGCCAGGAAAACTCATGGAAGATGGACGTAGAGTTTGTGATTTCTGCAACAAAACATTTACAAAACCTTCACAGTTAAGGTTGCATCTAAACATACACTACATGGAGAGGCCGTTCAGATGTAGTGTTTGTGCTGTTAGTTTTCGTACCAGAGGTCATCTGCAAAAGCATGAGCGTTCTGGGTCCCATCACAATAAAGTGTCAATGACCTCAACTTTCGGGGCAGCGACATCGTGCAATCCTCGACCTTTTCGTTGTTCAGATTGTAATATAGCATTCCGAATACACGGACATCTCGCCAAACATCTCAGAAGCAAGATGCATGTGATGCGTTTGGAGTGCTTATTCAAATTACCGTTTGGAACGTTTACGGAAATAGAACGTGCTGGTCTCAGTCTAACAGATATAGATACGACAGATTGTGCCAGTTCTTTGGCTAGTTTGCAATCTCTCGCCAGAAAATTACATGAAAAGGACCCATCGAAACTTGAGTACCGAGAGCCGAGTGGGGCAGCGCTTAACCTACCTGCAGGGAGGGAGTCTTCTGAAGACGAAGATGCTTTAGTTTATTTAGAAAAGACCTGTGACAGTTTAAAAGATAGTGAGATAAAAACGATTGAAAACAGTGACTGTCAAGAAACAGAAACTCGAGTTAATTATAGTGCCACAGATAATTAG

Protein sequence:

>DPOGS215612-PA
MKRANDKVQLKTVEDRRGAVSCVVCTKVAYKMPLTQEKRMDNFPNSNDHSYLHKKFKKMASPISVLPVNSMKNEESVHKELGFSQITSSPNLKNGTISAAHPEIEKIKDKYANRGIETDNIVQTNYNDEICRLSGVNNYVQITGKTSYNDEFLNKTENGEIDVTKDTYSGGTGRYICPYCKLPCAKPSVLQKHIRAHTNERPYPCIPCGFAFKTKSNLYKHKRSRTHALRSQGADVSVAINEEDLSGGSESDTSSTPTFMSDPTSDASLIRFLNTRPNDFSSPELASDGNTQISSNSYNDHKSKTIYKPKFRAALYQGNDDKDKIKKSISHNAEFLTEHISKIISDNEAIVDVIETPLQKKYGKIKQIAESKQFSTEIDIKSEVTPLNLTKNSYETESLIRKRSHSESFALTSDDHKHPLNPEGSIIKDLLLKTKANGLNSTNSLTGELVDGLGPLYVCSQCQIVYRSADNLEIHRSYYCKGALTNNCNISSNVPKEAKYVRPDNGYVRSNSINVRLPETSASSTKVNYLMNSPPIKNKPDNLVILKTECSDVIAPLPSPGPLLGNTRLVDSRLPSECNKKTEGLKLKTKECSPKRRFDSRSETNSPRLIENISPRSADLYVHSKIRCVDISSPSLRTIEEISPHIRHNSTSLQMFGGEVKIVDHSGSTTTLRIEPSKTQLSPILIHQNLSPSKFGNDSEASSVVVRSGLHSGGTIVHNPPTPKEAINNHQVQTPRIASSTPNAQNTNMHVHDIPHFQFPPLSAITAYNPLTLPPLSPSPSPNGATTIMHGGKLIPHVPGIPGPNIPGLFMTNSNLQMKNSDSHKSVTKTTSDNNQHLLTLNVSTGKGSVISNYDRIPNNSRSPNIRSMSMEVEHNISNKDTDIQNMSSMPIIKIKHVDEPILKNFSSSCLLKSIKRNADGVPKHPVLKENTNTSFNKTKNKDSHVHPSHKVIDIKAENDIKNFNFENFITKAEIYNNQIQNKIDIERNSNVSETFVTSVQNERSETSYFQKSSISKSNSEERKPKFLRPSTLPLKPGTFTPKRHHGITPNANTMPLVSPETPRPAKAYGQLYLNGNAYTYLGLKCSTKVFYCTINRPQPTYVPNQHFLSMYSNWQLLSELTPDPLGLSASSAMSLYDSRHRPQSLAVSVIKQDLILTHSSQWNKNSKDGKQVITSIDSKKSEEIKNISDNTATSKKELTGGFESNEEYTYVRGRGRGRYVCSECGIRCKKPSMLKKHIRTHTDVRPYTCVHCVFSFKTKGNLTKHMKSKAHYKKCCELGINPNEGNDAEGSEMAQCSGETDDETDSDGDEGNEGETESSDTEVFKSRLPEHEAAHCLLSLGGSRPATSATPGLITSARPTTYPYTPMLLENTLDVDQDKVESVRTPSTDSRIDTDNEPMDLSKNELRTPTSVMEIPTERESSVMACLASNTAKLPHHQSQWTNGEPMLHTYLTERALLDSKIKQSQLTCNSKIRKIDLENSLYLEKETAEQEISNPRNVLDTITTTTAFSKDESVSIDNSQNCLNLTSESRARTPNNSNPENAKHVVSEYLKHARINHMKTLDDPNHLDISSDDSNSGKVNIEEKTKVDEVSDCDGMKLSSSEYDPVASKVVIGVGGVFKVTKGKEFDGSASYSPGKLMEDGRRVCDFCNKTFTKPSQLRLHLNIHYMERPFRCSVCAVSFRTRGHLQKHERSGSHHNKVSMTSTFGAATSCNPRPFRCSDCNIAFRIHGHLAKHLRSKMHVMRLECLFKLPFGTFTEIERAGLSLTDIDTTDCASSLASLQSLARKLHEKDPSKLEYREPSGAALNLPAGRESSEDEDALVYLEKTCDSLKDSEIKTIENSDCQETETRVNYSATDN-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: