MonarchBase - Protein-coding gene

DPOGS214614
Transcript	DPOGS214614-TA	2916 bp
Protein	DPOGS214614-PA	971 aa
Genomic position	DPSCF300050 + 10697-21844
RNAseq coverage	71x (Rank: top 66%)

Annotation
*Heliconius*	HMEL010732	2e-104	78.65%
*Bombyx*	BGIBMGA001777-TA	2e-72	37.02%
*Drosophila*	crol-PE	3e-33	26.80%
EBI UniRef50	UniRef50_UPI00020F6A30	4e-49	29.81%	UPI00020F6A30 related cluster n=1 Tax=unknown RepID=UPI00020F6A30
NCBI RefSeq	XP_001946669.1	7e-48	30.35%	PREDICTED: similar to Zinc finger protein 271 (Zinc finger protein 7) (HZF7) (Zinc finger protein ZNFphex133) (Epstein-Barr virus-induced zinc finger protein) (ZNF-EB) (CT-ZFP48) (Zinc finger protein dp) (ZNF-dp), partial [Acyrthosiphon pisum]
NCBI nr blastp	gi\|358420052	2e-50	30.76%	PREDICTED: uncharacterized protein LOC516002 [Bos taurus]
NCBI nr blastx	gi\|260789631	9e-63	29.21%	hypothetical protein BRAFLDRAFT_61483 [Branchiostoma floridae]

Group
Gene Ontology	GO:0003676	8.2e-12	nucleic acid binding
	GO:0008270	2.3e-05	zinc ion binding
	GO:0005622	2.3e-05	intracellular
KEGG pathway
InterPro domain	[846-871] IPR013087	8.2e-12	Zinc finger, C2H2-type/integrase, DNA-binding
Orthology group	MCL26806		Lepidoptera specific

Nucleotide sequence:

>DPOGS214614-TA
ATGGATTCTCATTTAATGCATGAGGCGGTCCCTCACAACATAAAGATGGATATGCACGACGGTTCGCACAACGTTAAACTTGACCTCCACGAAGTTCCTATATCACACAACATCAAAATGGACGGTCACGTTCACGAGGTGCCAGTCACACACATAGGTCATATGAACCAAAACAATCAGTTACAACAGCAAAACGTCACACAAAACGTGGAGACGGAACCGGAGAATCTGCTGAAGCCGCGAATGGAGAAGAAAAAGAAAGAAGCCATCGACGGACAAGCTAGAGAAATAATTTACAAAGTTATCAAGTTCTTCGAGAGTGAAAAACAGAATAGAGGTTACGCGTTCCCGGTTGAAAATGTAGTTAAAAGGGCCTGTGCGGCCACCGGCCTGTCTGAAAGCACTATAAAGAGGATTAAACGGGAAGGTATCAGAGCTGAGGCGACACACACGAAAATGGCTGGCCCAAAGAAGAAGAGAGTCCGGAAAACTAAAGTCCAACTGGATTATTTCCAACTGTGTGCGCTACGAGGCATTGTTAACAGCTACAGTATGAGAAAAGAGGTACCTACCTTAGGCAAAATACTAACAGCGGCCAAACACGAACTGAATTACAGAGGTGGCAAGGAATCTCTCAGGCTAATATTACTGAACAAGCTAGGTATTAAGTTTAAGAAGTGCGAAAAGAAAAATAAAAAACCTCCGGAGCCCAATCAGGGGGCGGCAATTCAGCCGATGCCAAATGTTATGTCACATTTGCCAATGCAGCAAATGAAACCAGAGAACCAATGTATTTATAGTAATATGATGCCCCAGACACCAGGAAAAACGTTATCACAATTGTCCATAAGCAAAAATATAGATTATGACCTGACATGTACCGAGAATGACAATGATAGCAAAATAAAAATAGAATTAAACGATTCGGGCAATGATTACAATGAAACGATAGTTAAGGAGGAATTAGATGATACGTTAAATTATAACGGAATAGGTAATATTGATATCGGGTTGAAGAAAATCAGGAGTGTAAGGAGGAAGTGCAAGATAAGTGATACTAGATTCACTGATGATGAGAAGGAGAGTCTGGTTGTGCCGTTTTTGATCAAACTCAATGATGTTTTTGCATTACCCAAGAAGAGGAACGGCGTCCATTACAAGAATATGTTGGCGATATGTAGTAAATATATTGGTAATTTGGCCGAAGTTAGGAGAAATGATCTTGAAAGAGTTGGGCCAAATCTCGAATGCACGGACTGTGGTGCACAGATCACAGACCGGGATATGATGGCGCACTGGGACGAGCACAGAGTACACCTGCACAGATGCAACCTCTGTGACGTCATCTCCAGGTCAAGGAAGGAGATCATACAGCACATAACAGAAGTGCACACCAAGGTGTACACCTGCAAGGAATGCGGGATTAAATGCTGGAAATTGCAGGAGTTCAATAAACATTACCGGAACTTTCACAAATACTTTGTGTGTGATCATTGTGATAAAAAGTTCTATAGCAAGTCTGTCATTGAGAGGCATATCAGATGTCGTCACCTCCGCCCCCCGCCGCCGGAGCCCCCGGAGCAAGCGTACTGTGTGGAGTGCGACCGAGTGTTCCCAAGCCAGCAGATGTACAGGAGACACCTGAGGACTGCCGCCGCTCATCGACCGCCTAAAAACACCAAGGTGCCGTGCCCGGACTGCGGGAAGACGTTCAGCAGGAAGGTGTACATGAACAATCACCACAAGCAAGTCCACAGGCGGGACTCGCCGCACTACTGCAGGGACTGTGACAAGTACTTCATCAACGGCTACGCTATCCGCACCCACGTTAAATTCGTCCACGAGAAGAGCGAGAAACCCAAGAACAAGATCTGCGACATCTGCCAGCGCGGCTTCCACACCAATCGCGTGCTGTCAAACCACCGCCGCACTCACACTGGCGAGAGGCCGTACTGCTGTGAACACTGTGGGGCGGCGTTCGCTCAGCTACAGGCTAGGAAGACTCACGAGAGGACGCAGCACAGGGCGGCACAGATGAGGCCCAAGCAGTCAATGCAATTTACCGTGAAACATCTATCATTGGATGAACAGAGAGAGGAGATTGAATTGAAGAAGGGGTCGCCGGAATATACACAAAGGAATTATAAATGCAAGGACTGTGGTCTGGGTTTTATTAGTGAAGATGTCTTGGAAGAGCACATCGTGAAGCATTCAGAGTCTAATGGCGCGAATATGTGCGATGTATGCACATTACGATTCAAATCAAAGACGGTATTGACACAACACAAACTACTACACTCCCGCGTGTTTGTCTGTAATAAATGTGGTGTTCATATAAAAAAGTGGTCTCACGCTCTCACACACAGACACAAGTGTTGGGACGTTTGTGTATCTGTGTGCGTGTATTGTAAGAAAGTGTTCAACAATAAAAACTCCTTGGATGTTCATATAAGAGGGGTTCATAAGAATATTAAGAAATACGTTTGTGTCGAATGCAAACGACTTTTCGGTACAAAACAACGTCTGCGGGTTCATATGAGATCACACACTGGCTCTAAACCTTTCGTGTGTGACTGCGGTCGTAAATTCACGACTAAATCGAATCTAAAGTCCCATCAAAACGTGCACAGCAGTTCCAGAGAACATTACTGCGTTGAGTGCAACAGATATTACAAGACTGAGAGGGGCTTGAAGAAACATTATAAGGACACGTTGAAGCACGGGGGATATGGCGCGATTCCTCGCTCTCAGTGTGATGATAAATTTCATTCGGAGACCGCTGTCAGCTCGCATGTTCGAGTCAGACACTCCACGGAGTATACCTGCGGTGTGTGTAACAAGAATTATTCAAGCAACTCTAATCTTAGGAAACATCTCCGCAGCGTGCACAACCTGACAGATATAGATATTGCATAA

Protein sequence:

>DPOGS214614-PA
MDSHLMHEAVPHNIKMDMHDGSHNVKLDLHEVPISHNIKMDGHVHEVPVTHIGHMNQNNQLQQQNVTQNVETEPENLLKPRMEKKKKEAIDGQAREIIYKVIKFFESEKQNRGYAFPVENVVKRACAATGLSESTIKRIKREGIRAEATHTKMAGPKKKRVRKTKVQLDYFQLCALRGIVNSYSMRKEVPTLGKILTAAKHELNYRGGKESLRLILLNKLGIKFKKCEKKNKKPPEPNQGAAIQPMPNVMSHLPMQQMKPENQCIYSNMMPQTPGKTLSQLSISKNIDYDLTCTENDNDSKIKIELNDSGNDYNETIVKEELDDTLNYNGIGNIDIGLKKIRSVRRKCKISDTRFTDDEKESLVVPFLIKLNDVFALPKKRNGVHYKNMLAICSKYIGNLAEVRRNDLERVGPNLECTDCGAQITDRDMMAHWDEHRVHLHRCNLCDVISRSRKEIIQHITEVHTKVYTCKECGIKCWKLQEFNKHYRNFHKYFVCDHCDKKFYSKSVIERHIRCRHLRPPPPEPPEQAYCVECDRVFPSQQMYRRHLRTAAAHRPPKNTKVPCPDCGKTFSRKVYMNNHHKQVHRRDSPHYCRDCDKYFINGYAIRTHVKFVHEKSEKPKNKICDICQRGFHTNRVLSNHRRTHTGERPYCCEHCGAAFAQLQARKTHERTQHRAAQMRPKQSMQFTVKHLSLDEQREEIELKKGSPEYTQRNYKCKDCGLGFISEDVLEEHIVKHSESNGANMCDVCTLRFKSKTVLTQHKLLHSRVFVCNKCGVHIKKWSHALTHRHKCWDVCVSVCVYCKKVFNNKNSLDVHIRGVHKNIKKYVCVECKRLFGTKQRLRVHMRSHTGSKPFVCDCGRKFTTKSNLKSHQNVHSSSREHYCVECNRYYKTERGLKKHYKDTLKHGGYGAIPRSQCDDKFHSETAVSSHVRVRHSTEYTCGVCNKNYSSNSNLRKHLRSVHNLTDIDIA-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: