MonarchBase - Protein-coding gene

DPOGS202335
Transcript	DPOGS202335-TA	3324 bp
Protein	DPOGS202335-PA	1107 aa
Genomic position	DPSCF300032 + 685702-810425
RNAseq coverage	112x (Rank: top 59%)

Annotation
*Heliconius*	HMEL010047	0.0	83.13%
*Bombyx*	BGIBMGA005001-TA	1e-21	73.53%
*Drosophila*	CG16779-PA	2e-52	68.15%
EBI UniRef50	UniRef50_D6WP34	5e-136	35.52%	Putative uncharacterized protein n=1 Tax=Tribolium castaneum RepID=D6WP34_TRICA
NCBI RefSeq	XP_002429833.1	1e-55	38.24%	rest corepressor corest, protein, putative [Pediculus humanus corporis]
NCBI nr blastp	gi\|270010845	2e-135	35.52%	hypothetical protein TcasGA2_TC014528 [Tribolium castaneum]
NCBI nr blastx	gi\|270010845	6e-143	34.95%	hypothetical protein TcasGA2_TC014528 [Tribolium castaneum]

Group
Gene Ontology	GO:0005515	6e-11	protein binding
	GO:0003676	2e-09	nucleic acid binding
	GO:0003677	3.3e-07	DNA binding
KEGG pathway
InterPro domain	[936-1003] IPR009057	6e-11	Homeodomain-like
	[220-254] IPR013087	2e-09	Zinc finger, C2H2-type/integrase, DNA-binding
	[859-910] IPR000949	5.6e-09	ELM2 domain
	[951-999] IPR001005	3.3e-07	SANT domain, DNA binding
Orthology group	MCL18296		Insect specific

Nucleotide sequence:

>DPOGS202335-TA
ATGGTAACTCCAGTGAAATGTCTGTATCCAAAAATATCTACTTGTTTACTCAACCGGCCTATAACTGCTGTGGTGATACAGTCGTTGGAGGTCGCGACAACGCGACTGCCACTGCCGACATACTCACCGCGCGCCGTACTGATGTATAGCGCGGCGGTGGGCGGAGAAGGTGTCGCGCTGCAGCTCCGAGAGGCGACACCTTCAGAAATAGATGAACGGCTCTCCATAGCCTGTCACGAGCCTGAGTTACTGGCTGACCTGCTTCACGCTGCTGACATAGACGGTGAGCATGCAGGTCTCACGGAACTTCTTGGTGCATCGTCTCCAGATCTGGCTTTTTCTTCTGACGCATCAGATAGCCTGCCACTACCAGAACACGATAATGAATGCACGACATCATCATCGTCAAGTGTGAGCGGTGTCACGAGGGTGTCTGTAGCGGTGACCGGAATAGAGTCAAAGACCTTGGCCAAAAAGGTCCGACCTAAACCAGCGTCTCCGAACCGCCAGGGGCCGCAGCAATGTCAAGTTTGCAACAAAGTGTTCGGCAACGCGTCTGCACTAGCGAAGCATAAGCTGACGCATAGCGATGAGAGGAAATATGTCTGCATCACTTGCGCAAAAGCTTTTAAAAGGCAAGACCATCTGAACGGGCACATGCTTACGCACCGCAACAAGAAACCATACGAGTGTAAGGCGGATGGGTGCGGAAAATCGTATTGCGACGCTCGGTCTCTTCGACGTCATACTGAAAATCATCACCAGCCTCCCTCTGATAAGAGCACCTCATCAGAATCGAGTGTGGATCGGGAGACGGCGCGAGTGACGTCACCCTCTTCGCCCTCTCGCACTAACTCTGCGACTTCTAATATGAACAGCTCGGAGAAATCTCGCAATGACAGCAGCCCGCCGCACACACCGCCGCCGAGAGCACGCAACAAACCGAAGGCTAAAACTACGCAACAGAGCAGCCCGAAATGCGGTGGCAGCAGTGTGAGCCGTTCAAGTGCGACTGGCAGTTCTGGACTGATTCGAACAACAGATGTCAAGCCCGTCGAGTGTAATTTATGTCACCGCAGATTTAAAAACATCCCCGCCCTCAATGGCCACATGCGACTACACGGTGGATACTTCAAAAAGGATTCAGACAACAAGAAGTTAGACAAGAAAGAATCAACTGGTCCTCCTTTACAAACTGCCTCTGTATCCGTGAGAGCTCTGATCGAAGAGAAGATCATAAGTCGTCGAGGTGCTACCGTATCACAAGCACCAACCTCAGGTACAACAACCGACACAATATCTCGATCGGGGTTTATTGTTCCAGCCCCACCACCTCTATCAACTATTAAAACTTATTCGTCACCAGTAACAACGGTTACTACTTCAGCACCATTTGTTTCCCCCCGTGCACCGCCAGCAGTGACAGTATCAAATACAACTACATTAAATAGAGATTCTACGCTCATTGAACTTTTAAGAAAAGGAAGCTCAAAGGTTGTTAAGCGCTCCGCATCTGATCCTGGCCAGGCGTCACCACAGCAACAAGACTTTACTTTCCGACCTGAATTATTTGGCGTATCGTTTAACTCAGACGATGGTTATTTTTCACCTGCTTTAAATGACGATACTTTCCAATTTGCAACAGCTTCTGATCATTTAGAAGAACTTGCGTCTCTTGAAGACTACGCAACTGTTGCTGCCTCTATACGAGAGCGGTCACCCGTAACTTTCCCGTCCAGTCGTCGTTTAGCTGCAGTTCTAAATTCTCCCCTACCAGAATCTTTAGCTGATTTTGGAGCTTGTCATGGAGGATCACCTGTTCCATCTCCTGGTATCGCATATGCTGATAGTTCACCGGGATTGTCTTATACAACTGGGGATTCACCAGGGTTAGCTTACACAGCCACATCTCCTAGTGGTAGTTATTCCAATCAACCGGAACCTTCACCAAGTTTCGCTTATCCAACACCTCCAGCATCTCACGATGCCCATTCACCGGCCCATACAGTCCCAAGAGCATCGTCGCCACTATCAGCTGCATTTTTTACGGCTACAATGTCCAGTCAAGAAGAGGTGGAAGAGGCCCTTGAAGAGGTTTTGCCTGAAGAATGCCGATCTTTAGATGCTTATGCTTTGGAATCTTCAACAACTACAAGACGAATTATGCTTAATTCCGAAGATCCCCTTTTGTCCAGTAGTCCTCGGGATTTCCCCAATCAAAGAAGTATTCGTCGCCAGAATAGAGTAGCAACACCTATGGCAGCACCTATGCAAACATGGCAACAGGACACAACAGCGCTTCAAGTGTGTGTGGAAGGTCGAGACCCACTACCAGCAGTATTTCTTAGTCCGAACAGCGTACCGGCGTCGCCTCAACAACGCAAACGTCGCGCGTCTCCAGCTGGTCCATACAAGTCGCGCATGCGTCGTAGAGTCAATCACTACACACCACAACCAACCCTACCACCAGATAGAGACGGTTGCGGTCTATTCGTAGAAATCAGAAATGCCCTTCAAGCCAACCTTGATATTACACTTGAAGATACACCACTGGAAGAGAATCGCTTACCACAAATTAATATCGGATCCGATCATCAAGCAGATATACCGGAACTGTGTAACGACCGTATAGATCTACATAGAGCTCCGGAACAACTCTTATGGGATCCTGGTATTAACGACGCACTAGATGACAATGAAGTCCGCATGTTCATGGAGCTGGCGATGTGTGCGGCGATGCCAGTTGGAGGACATACAAGAGAGAGTGCTTTACAAACATTGGGAGAGTGCGGTGGTGACGTCCGCATTGCGACGCTTCGTCTCATGTCTCGACCAGCTGCGCCCTCACAACAGGAGTCACGCTGGACTCCTGACGAAGTGGAGGCTTTCCTAGCTGGACTTGGGCAGTTCGATAAAGATTTCTTTAGGATTTCACAACTGGTAAGATCGAAGGACTCAAAACAGTGCGTTCAGTTTTATTACTTCTGGAAGAAGGTGACAAAAGACTACAAGACACTGTATTTAAGAAGTTGGGCCGATTCTCAAGCTCAAGGTTCCGTAGCACAGATTTCGTCTCGAACGACCTCATGCGCCTCGCCAACAACAGCGTACGAAGGCGAGGAGTTTCCGTGCAAAATATGCGGAAAAGTATTTAACAAAGTTAAAAGTCGTAGCGCACACATGAAGTCGCACCGGCCACTCGACGCCGAGCCCAAACGGTCAAAACTCGAAAAACCTTATGAAAAGGTCGAGAGATCTGACGAGAGGTCGATCAGATCTGAGCGACAGCAAAACACAAAAGCAAACAGCTCAGTAACTGACTGA

Protein sequence:

>DPOGS202335-PA
MVTPVKCLYPKISTCLLNRPITAVVIQSLEVATTRLPLPTYSPRAVLMYSAAVGGEGVALQLREATPSEIDERLSIACHEPELLADLLHAADIDGEHAGLTELLGASSPDLAFSSDASDSLPLPEHDNECTTSSSSSVSGVTRVSVAVTGIESKTLAKKVRPKPASPNRQGPQQCQVCNKVFGNASALAKHKLTHSDERKYVCITCAKAFKRQDHLNGHMLTHRNKKPYECKADGCGKSYCDARSLRRHTENHHQPPSDKSTSSESSVDRETARVTSPSSPSRTNSATSNMNSSEKSRNDSSPPHTPPPRARNKPKAKTTQQSSPKCGGSSVSRSSATGSSGLIRTTDVKPVECNLCHRRFKNIPALNGHMRLHGGYFKKDSDNKKLDKKESTGPPLQTASVSVRALIEEKIISRRGATVSQAPTSGTTTDTISRSGFIVPAPPPLSTIKTYSSPVTTVTTSAPFVSPRAPPAVTVSNTTTLNRDSTLIELLRKGSSKVVKRSASDPGQASPQQQDFTFRPELFGVSFNSDDGYFSPALNDDTFQFATASDHLEELASLEDYATVAASIRERSPVTFPSSRRLAAVLNSPLPESLADFGACHGGSPVPSPGIAYADSSPGLSYTTGDSPGLAYTATSPSGSYSNQPEPSPSFAYPTPPASHDAHSPAHTVPRASSPLSAAFFTATMSSQEEVEEALEEVLPEECRSLDAYALESSTTTRRIMLNSEDPLLSSSPRDFPNQRSIRRQNRVATPMAAPMQTWQQDTTALQVCVEGRDPLPAVFLSPNSVPASPQQRKRRASPAGPYKSRMRRRVNHYTPQPTLPPDRDGCGLFVEIRNALQANLDITLEDTPLEENRLPQINIGSDHQADIPELCNDRIDLHRAPEQLLWDPGINDALDDNEVRMFMELAMCAAMPVGGHTRESALQTLGECGGDVRIATLRLMSRPAAPSQQESRWTPDEVEAFLAGLGQFDKDFFRISQLVRSKDSKQCVQFYYFWKKVTKDYKTLYLRSWADSQAQGSVAQISSRTTSCASPTTAYEGEEFPCKICGKVFNKVKSRSAHMKSHRPLDAEPKRSKLEKPYEKVERSDERSIRSERQQNTKANSSVTD-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: