MonarchBase - Protein-coding gene

DPOGS212692
Transcript	DPOGS212692-TA	2931 bp
Protein	DPOGS212692-PA	976 aa
Genomic position	DPSCF300012 - 966156-970029
RNAseq coverage	161x (Rank: top 52%)

Annotation
*Heliconius*	HMEL014164	0.0	86.24%
*Bombyx*	BGIBMGA013199-TA	0.0	89.74%
*Drosophila*	ct-PC	1e-141	56.55%
EBI UniRef50	UniRef50_D2A6H5	0.0	64.66%	Putative uncharacterized protein GLEAN_15699 n=3 Tax=Endopterygota RepID=D2A6H5_TRICA
NCBI RefSeq	XP_970668.2	0.0	66.39%	PREDICTED: similar to Homeobox protein cut [Tribolium castaneum]
NCBI nr blastp	gi\|189238507	0.0	66.39%	PREDICTED: similar to Homeobox protein cut [Tribolium castaneum]
NCBI nr blastx	gi\|189238507	0.0	66.81%	PREDICTED: similar to Homeobox protein cut [Tribolium castaneum]

Group
Gene Ontology	GO:0003677	1e-30	DNA binding
	GO:0006355	6.6e-19	regulation of transcription, DNA-dependent
	GO:0043565	6.6e-19	sequence-specific DNA binding
	GO:0003700	6.6e-19	sequence-specific DNA binding transcription factor activity
	GO:0005515	2.3e-18	protein binding
KEGG pathway
InterPro domain	[545-653] IPR010982	1e-30	Lambda repressor-like, DNA-binding
	[364-442] IPR003350	2.4e-28	Homeodomain protein CUT
	[693-755] IPR001356	6.6e-19	Homeobox
	[677-752] IPR009057	2.3e-18	Homeodomain-like
	[670-751] IPR012287	1.2e-14	Homeodomain-related
Orthology group	MCL16011		Insect specific

Nucleotide sequence:

>DPOGS212692-TA
ATGTTTGAAAAGTGTGCCGGCAGATGTCGTACGTCAAACAATGTTTTAGGAAAGAGTGAAAGCGAATTACGGCTCGTTTCCGTCACACGCGCGATATTCCTATACGCCGCCGGAACATATTGCTTCTATACAGACCTCTCGTTGGTCACAGTTCTGAATGTTGGAACAAAAGACGGTACAACCGGCCCCGGGTTCGGGAGGTCAGATGGTGACGGCGAGGAACGCCTGGCTCACATGCTCAATGAAGCCTCACATATCATGAAGACACCGACGGGACAAGCCAACAACGATGACTCCAGGAGCAACGAAGACTCCAGCTCACCGAGGACCCAGTGCCCGTCACCGTTTTCTAATAAGGATTCGAGTCAAAACAGACGGCTTAAGAAATACGAAAACGATGACATTCCTCAAGAAAAAGTAGTGCGTATATACCAAGAAGAGCTGGCGAAGATAATGACGAGACGCGTGGAAGACATGCGCCATAACAGAGACGGCTTCCCTGGCAGCGGCATGGCCCCGCACATGGAACGTCCTCCGGAAGACATTAGGATGGCTCTGGAAGCGTATCACAGGGAACTAGCCAAAATACAACCGGGCGGAAACATTCCGACCCTGCACAACTTGCCAGGGATGCCACCCTTCCCCAACCTGCTGGCCCTTCAGCAGCAAGCCATGCAAGCACAAAGCCAGCACATCAACGGCTCCGGGGCAATCCAAGATCTCTCTCTGCCCAAAGAGAAAAATACCAAAATTAATGGAATGACTGATAGTGATAAGGAAAGGTCTATGGACGCTGAAGAGGCCATCAGACACGCGGGAAGCGCTTTCTCGCTAGTTAGACCGAAATTAGAACCGGGACAGCAATCCACCGGCTCCTCGGCATCCAGCCCGCTGGGAAATGCTATTCTACCTCCCGCCATTACGCCGAATGAAGACTTCAGTAACTCGGCCGCAGCGAGTCCATTACAAAGAATGGCTTCCATAACGAATAGTTTGATATCCCAGCCCCCGAATCCGCCACACCACGCGCCACCGCAGAGATCGATGAAGGCAGTCCTGCCACCGATAACTCAGCAACAGTTCGATTTGTTCAACAATTTGAACACGGAGGAAATCGTGAAGAGAGTCAAAGAGGCTCTCAGCCAGTATTCCATAAGCCAGAGATTGTTCGGCGAATCCGTGCTCGGCCTGTCTCAAGGATCCGTCAGCGATCTGCTAGCGAGACCGAAGCCATGGCACATGTTGACACAAAAGGGAAGAGAGCCGTTCATTCGTATGAAAATGTTCTTGGAGGATGAAAACGCAGTGCACAAATTGGTTGCGTCCCAATACAAAATCGCACCGGAGAAGCTGATGAGAACAGGAAACTATAGCGGAGCACCTTCATGTCCGCCAAATATGAACAAGCCGATGCCACCAACACAGAAGATGATCTCAGATGCCACGGTGCTCCTTAGCAAGATGCAACAGGAACAACTTCTAGGATCTGGACACTTAGGACATTTGGGACAACCGACCCCTCTCCTGTTGACTCCGCCTGGCTTCCCACCACATCACGCCGTGACGCTGCCGCCTCAGCATCACGACAACAACAACAAGGAGAGGAAACCACCACCGCCTCCACAACCCCATCACCAGCCGCCCGTGATGCGAGGCCTTCACCAGCACATGTCACCCAGCGTCTACGAGATGGCAGCTCTGACGCAAGACCTCGACACTCAGACGATCACGACCAAAATAAAGGAAGCGCTCCTCGCCAATAACATCGGACAGAAAATATTCGGCGAGGCCGTGTTGGGACTCTCCCAGGGATCGGTCAGTGAACTTCTATCGAAACCGAAACCCTGGCACATGTTGAGTATCAAAGGACGAGAGCCCTTCATCAGAATGCAGCTCTGGCTCAGCGATGCGCATAATATAGATCGTCTCCAAGCGTTGAAGAATGAGAGACGCGAAGCTAACAAGAGACGGCGGTCGAGCGGACCCGGTCAGGACAACTCCTCGGACACCTCATCGAATGATACGTCGGAGTTCTACCACTCCAGCTCGCCTGGACCGATACCCGGCGCGCCGTCCGCCAAGAAGCAGCGCGTGCTGTTCTCGGAGGAACAGAAGGAAGCGCTGAGACTAGCCTTCGCTTTGGATCCCTACCCGAACATGCCGACGATAGAATTCCTCGCTGCCGAGCTGGGCCTGTCCACCAGAACGATCACCAACTGGTTCCACAACCATCGCATGCGGCTAAAGCAACAGGCGCCGCACGGCCTGCCCGCGGAACCTCCAGCACGAGATCAGGCCTCCGCTCCCTTCGATCCCGTACAGTTCCGTCTCCTGCTCAATCAGAGGCTTCTGGAGCTGCAGAAGGAGAGGATGGGCCTGGCGGGGGTTCCTCTGCCGTACCCGCCCTACTTCGCCGCCAACTCCAACTTCGCCGCCCTCATCGGTCGCGGCCTGCTGCCCACCGACGAGCGCGTCAAGGACCCTGCCGCCGGACTCGACCTCTCGATGCCGCTGAAGCGTGACCCTGACGGAGACGACTTCGAGGAGGACGACGTCGAGAGCAACCTCGGCTCCGAGGACTCCCTCGACGATGACTCCAAGACTGAGCCCAAGGCGGCCTCCACCCCCGCTGGTCGGTCCAGCCGCCGCAAGCCCGCGGCGCCGCAGTGGGTCAACCCCGACTGGCAGGACGAGAAGCCGCGCAACCCCGACGAGGTCATCATCAACGGCGTCTGCGTGATGCGCGCCGACGACTACCGTCGCGAGGCCACGGAGACCGTGAGGGTGGAGCCATCCCCCGCCCCCCGCGAGAGCTCCCCCGCCCCCCAGGACACGCCGCGCGCGCCTCGCACCCCCCGCACGCCGTCCCCGGACGTCCTGCCCGAGGACAAGATCAAGACGGAGGCGGAAGACGACCGGTGGGAGTATTAA

Protein sequence:

>DPOGS212692-PA
MFEKCAGRCRTSNNVLGKSESELRLVSVTRAIFLYAAGTYCFYTDLSLVTVLNVGTKDGTTGPGFGRSDGDGEERLAHMLNEASHIMKTPTGQANNDDSRSNEDSSSPRTQCPSPFSNKDSSQNRRLKKYENDDIPQEKVVRIYQEELAKIMTRRVEDMRHNRDGFPGSGMAPHMERPPEDIRMALEAYHRELAKIQPGGNIPTLHNLPGMPPFPNLLALQQQAMQAQSQHINGSGAIQDLSLPKEKNTKINGMTDSDKERSMDAEEAIRHAGSAFSLVRPKLEPGQQSTGSSASSPLGNAILPPAITPNEDFSNSAAASPLQRMASITNSLISQPPNPPHHAPPQRSMKAVLPPITQQQFDLFNNLNTEEIVKRVKEALSQYSISQRLFGESVLGLSQGSVSDLLARPKPWHMLTQKGREPFIRMKMFLEDENAVHKLVASQYKIAPEKLMRTGNYSGAPSCPPNMNKPMPPTQKMISDATVLLSKMQQEQLLGSGHLGHLGQPTPLLLTPPGFPPHHAVTLPPQHHDNNNKERKPPPPPQPHHQPPVMRGLHQHMSPSVYEMAALTQDLDTQTITTKIKEALLANNIGQKIFGEAVLGLSQGSVSELLSKPKPWHMLSIKGREPFIRMQLWLSDAHNIDRLQALKNERREANKRRRSSGPGQDNSSDTSSNDTSEFYHSSSPGPIPGAPSAKKQRVLFSEEQKEALRLAFALDPYPNMPTIEFLAAELGLSTRTITNWFHNHRMRLKQQAPHGLPAEPPARDQASAPFDPVQFRLLLNQRLLELQKERMGLAGVPLPYPPYFAANSNFAALIGRGLLPTDERVKDPAAGLDLSMPLKRDPDGDDFEEDDVESNLGSEDSLDDDSKTEPKAASTPAGRSSRRKPAAPQWVNPDWQDEKPRNPDEVIINGVCVMRADDYRREATETVRVEPSPAPRESSPAPQDTPRAPRTPRTPSPDVLPEDKIKTEAEDDRWEY-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: