MonarchBase - Protein-coding gene

DPOGS210903
Transcript	DPOGS210903-TA	3285 bp
Protein	DPOGS210903-PA	1094 aa
Genomic position	DPSCF300045 - 235753-245135
RNAseq coverage	152x (Rank: top 53%)

Annotation
*Heliconius*	HMEL015824	8e-131	55.53%
*Bombyx*	BGIBMGA003087-TA	4e-131	51.31%
*Drosophila*	CG6654-PA	4e-40	34.33%
EBI UniRef50	UniRef50_UPI0002064A9A	2e-88	44.91%	UPI0002064A9A related cluster n=4 Tax=unknown RepID=UPI0002064A9A
NCBI RefSeq	XP_395427.2	1e-88	44.91%	PREDICTED: similar to zinc finger protein 585A, partial [Apis mellifera]
NCBI nr blastp	gi\|383858142	2e-90	43.86%	PREDICTED: uncharacterized protein LOC100874963 [Megachile rotundata]
NCBI nr blastx	gi\|383858142	4e-97	30.67%	PREDICTED: uncharacterized protein LOC100874963 [Megachile rotundata]

Group
Gene Ontology	GO:0003676	6.1e-15	nucleic acid binding
	GO:0005634	6.9e-12	nucleus
	GO:0008270	6.9e-12	zinc ion binding
	GO:0005622	2.7e-05	intracellular
KEGG pathway
InterPro domain	[767-795] IPR013087	6.1e-15	Zinc finger, C2H2-type/integrase, DNA-binding
	[10-83] IPR012934	6.9e-12	Zinc finger, AD-type
Orthology group	MCL17984		Insect specific

Nucleotide sequence:

>DPOGS210903-TA
ATGGAAGTGTTTCTTTATAACTCTACAGTTTGTAGATTATGTGGCGAAGAAAATGATAATGGAACATTACTATATTCATGTGAAGAAAATAATCAAAGCTTATGTGAAATAATTAATACCTATTTGCCAATAAAGGTATCTGATGATGGAGAACTACCACGGACTATTTGCCCTGGATGTACAATTCAATTGGAAGCAACAGTTGAATTTTTAAATCTAATTATAAATGGTCAAAAAATTTTGCGTGAACTTTACCAACGAGAGAAGGAATACAAAAAGACTGTTCTTAATAATTCCAATAAAGGAACTCCGGAAGTTATATCAGAAAAAATCATTTACGAAATAAATACAAGCAATGGGGTGTATCAAGTTGAGCATCCAATATCACTGCAGGTCAGCGGGCTTGATAAACCAAAGAGAAAAAGAGGCCGTCCACCAAAGAAACAGAAGACTGCCGAGGAGATCGCCCAGGAAACTCCCAAAACAGTGGAAATTGAGGATAAGACGGAGAAAGATGATGACGAACGTTCAGGGAAGAGGAGGAGAAAAACACCTACCAGGTTCAAGGAAGCCGTTCAGGGCAAGGAGCTGGAAAGAATATTCATTGAAGAAGGCGTCATAGATGGCAATGAGAGCGACCACAACACAAAGGCTGATACGACACAGGAAAATAAATTACCGGTGAACAAGGAACCACAAGTTATAGGGCATTTGGAGGCGTCCGGAGAGCTTGTTGTGGTGGTGAAGGGCAAGGGAAGGGGTAGACCTAAAGGTCGCACGCGTCAAACCCGCGAGGAATGCGCCATATGTGGGCTTGAGTTTGCTGCGACTGGTCGCTACATGTCCCACATCGCTCAGCATGGACCTGTTCTTTACAAGTGTGACTGCGGTCAAACATTCACTACTAAGCTACTGTTCTCCGAACATCAGAACACAAGCGGTCACAGCGGGCGGACGGTGGTGCCCTGTAGAAACGAAGTCGAGTCTCAGAAAGAGTCCGAAAAGAATGAAACGCCTTTGATCGAATTGATACCCGAGGCCGTAGAGGATGTTGTCAAAGGAGATATACAAATACCTCAAGCATTACCTGATTTGAGTGATCTCGACCCGCTGAAGTGTGATGACCATGTCAAGACTGAGACGGTGAAAAACGAACAAGAGAGAGAGGAGAATGACCCTCTGCAAGATGAGTGCGAGACAGCTGACGGAACTCGTGAGGAAGTACAGGACAGCAAGAAGGAGAAGGTCAAGATTAAGTGCAACCACTGCGATAAACTGTTCGGCACCCGGCAGAGCAAGTCGCTGCACATAAAGCAGCATCGTGACTCAAGTCGCACGCGTCAAACCCGCGAGGAATGCGCTATATGTGGGCTGGAGTTTGCTGCGACGGGTCGCTACATGTCCCACATCGCTCAGCACGGACCTGTTCTTTACAAGTGTGACTGCGGTCAAACATTCACCACTAAGCTACTGTTCTCCGAACATCAGAACACAAGCGGTCACAGCGGGCGGACCGTGGTGCCCTGTAGAAACGAAGTCGAGTCTCAGAAAGAGTCCGAAAAGAATGAAACGCCTTTGATCGAATTGATACCCGAGGCCGTAGAGGATGTTGTCAAAGGAGATATACAAATACCTCAAGCATTACCTGATTTGAGTGATCTCGACCCGCTGAAGTGTGATGACCATGTCAAGACTGAGACGGTGAAAAACGAACAAGAGAGAGAGGAGAATGACCCTCTGCAAGATGAGTGCGAGACAGCTGACGGAACTCGTGAGGAAGTACAGGACAGCAAGAAGGAGAAGGTCAAGATTAAGTGCAACCACTGCGATAAACTGTTCGGCACCCGGCAGAGCAAGTCGCTGCACATAAAGGCGGTACATCTCGGCGAGAAGTCGTACGTGTGCCCGGAGTGCGGCGCGCGGTTTGCGTACCCCCGCTCGCTGGCCGTACACCGACAAGCTCACCGCAGGGCGAGGCCCTCCGCGGGCTACGCCTGCGATCTCTGCGGGAAGGTGTTGAACCACCCGTCGTCGGTGGTGTATCACAAGCAGGCGGAGCACGCGGACCAGCGCTACGTGTGCGGCGCGTGCGGCAAACAGTTCCGACACAAGCAACTGCTGCAACGACACCAGCTGGTACACTCGCAGGCCAGGCCCTTCTCGTGTAAGGTGTGTAACGCCACGTTCAAGACGAAAGCCAATCTTCTCAACCACCAGCTGCTGCACTCCGGCGTTAAGAAATTCTCGTGCGAAATTTGCAAACATAAATTCGCACACAAGACCAGCCTCACGCTGCACATGAGATGGCACACAGGGGTCAAACCGTTTACTTGTGGCGTGTGCGGTAAGAGCTTCAGTCAGAAAGGGAACCTCTCGGAACACGAACGCATCCACACTGGAGAGAAGCCGTATCAGTGTGCGCTGTGTCCTCGAAGATTCACAACCTCGTCCCAGCACCGCCTGCACGCCAGGAGACACGCCGAACGAACACACTGCTGTGGAAAATGCGGGAAGCGCATGTCGTCCCGCAGCGTGTGGGCGGCGCACGTCCGGCGCGATGACTGCACGACGCGGCGGTTGGCGCGACAAAAGGTCACAAAACAAATAAGTTTATTGGTAAACGACAAGAACCATCAGCCGGTGCAGCTGGAAGATCCCAAGCTGTCCGACGACAACACCGAGGAGAGGGTCATATACGTGGCCTACGACACCGAAGACTCCGAGTCCACCGCCTTCCATATATTAGACCCAGAACAGGTGCAGACTGCTGATATAGAACAGAACAAAGTACTGACGACCTGCGAGCTTTATACACGACCGTCGCTGCTGGTGTCGCAACAACTACAGCAGTTACAGCTGGAGACGGCGGAACAGCAGGTGGTGGAACACGAGCAGCTGGAAATAGACGAACACCTGGAGCTGGAACACGAGGAACTCGGCCTGGACGACGAGCAAATTAAGATCGAGAACCAGATGGAGATTGAAGAAATTGAGGAAATAGAAACGAGTCCTGTAGTGGTCGGCGGGCAGAGCATACCCGTGACGGACGAGCGCGGTAACCCACTACACTTCACCATGGCTGACGGAACCAAGCTGGCTATCACCTCCGTGGACGGCAAGTCGCTGCAGGTGATAACACAAGACGGCCAGACGATACCGGTGGAGATCAACGGATACGACAACCAAGACCAGGTGCCGCCGAGCCCCAACGCGGTGGTTCACCAGCTCCACCTGCAGAAGACTCCGCCGCCCGCTCCCGTCACTCACTACTTCACTATCGTCTGA

Protein sequence:

>DPOGS210903-PA
MEVFLYNSTVCRLCGEENDNGTLLYSCEENNQSLCEIINTYLPIKVSDDGELPRTICPGCTIQLEATVEFLNLIINGQKILRELYQREKEYKKTVLNNSNKGTPEVISEKIIYEINTSNGVYQVEHPISLQVSGLDKPKRKRGRPPKKQKTAEEIAQETPKTVEIEDKTEKDDDERSGKRRRKTPTRFKEAVQGKELERIFIEEGVIDGNESDHNTKADTTQENKLPVNKEPQVIGHLEASGELVVVVKGKGRGRPKGRTRQTREECAICGLEFAATGRYMSHIAQHGPVLYKCDCGQTFTTKLLFSEHQNTSGHSGRTVVPCRNEVESQKESEKNETPLIELIPEAVEDVVKGDIQIPQALPDLSDLDPLKCDDHVKTETVKNEQEREENDPLQDECETADGTREEVQDSKKEKVKIKCNHCDKLFGTRQSKSLHIKQHRDSSRTRQTREECAICGLEFAATGRYMSHIAQHGPVLYKCDCGQTFTTKLLFSEHQNTSGHSGRTVVPCRNEVESQKESEKNETPLIELIPEAVEDVVKGDIQIPQALPDLSDLDPLKCDDHVKTETVKNEQEREENDPLQDECETADGTREEVQDSKKEKVKIKCNHCDKLFGTRQSKSLHIKAVHLGEKSYVCPECGARFAYPRSLAVHRQAHRRARPSAGYACDLCGKVLNHPSSVVYHKQAEHADQRYVCGACGKQFRHKQLLQRHQLVHSQARPFSCKVCNATFKTKANLLNHQLLHSGVKKFSCEICKHKFAHKTSLTLHMRWHTGVKPFTCGVCGKSFSQKGNLSEHERIHTGEKPYQCALCPRRFTTSSQHRLHARRHAERTHCCGKCGKRMSSRSVWAAHVRRDDCTTRRLARQKVTKQISLLVNDKNHQPVQLEDPKLSDDNTEERVIYVAYDTEDSESTAFHILDPEQVQTADIEQNKVLTTCELYTRPSLLVSQQLQQLQLETAEQQVVEHEQLEIDEHLELEHEELGLDDEQIKIENQMEIEEIEEIETSPVVVGGQSIPVTDERGNPLHFTMADGTKLAITSVDGKSLQVITQDGQTIPVEINGYDNQDQVPPSPNAVVHQLHLQKTPPPAPVTHYFTIV-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: