MonarchBase - Protein-coding gene

DPOGS208174
Transcript	DPOGS208174-TA	2598 bp
Protein	DPOGS208174-PA	865 aa
Genomic position	DPSCF300207 - 162129-171026
RNAseq coverage	141x (Rank: top 55%)

Annotation
*Heliconius*	HMEL015720	6e-140	54.13%
*Bombyx*	BGIBMGA010261-TA	0.0	73.96%
*Drosophila*	Msh6-PA	2e-149	54.43%
EBI UniRef50	UniRef50_E2BJ16	1e-149	53.57%	Probable DNA mismatch repair protein Msh6 n=7 Tax=Formicidae RepID=E2BJ16_HARSA
NCBI RefSeq	XP_001600292.1	2e-157	55.11%	PREDICTED: similar to DNA mismatch repair protein muts [Nasonia vitripennis]
NCBI nr blastp	gi\|383847693	7e-157	53.69%	PREDICTED: probable DNA mismatch repair protein Msh6-like [Megachile rotundata]
NCBI nr blastx	gi\|383847693	1e-150	54.67%	PREDICTED: probable DNA mismatch repair protein Msh6-like [Megachile rotundata]

Group
Gene Ontology	GO:0005524	5.6e-108	ATP binding
	GO:0006298	5.6e-108	mismatch repair
	GO:0030983	5.6e-108	mismatched DNA binding
KEGG pathway	nvi:100115613	5e-157
	K08737 (MSH6)	maps->	Colorectal cancer
			Pathways in cancer
			Mismatch repair
InterPro domain	[69-848] IPR015536	1.3e-254	DNA mismatch repair protein MutS-homologue MSH6
	[634-832] IPR000432	5.6e-108	DNA mismatch repair protein MutS, C-terminal domain
	[377-589] IPR007696	1.6e-28	DNA mismatch repair protein MutS, core
	[196-309] IPR016151	1.7e-18	DNA mismatch repair protein MutS, N-terminal
	[205-264] IPR007695	5.9e-15	DNA mismatch repair protein MutS-like, N-terminal
	[452-542] IPR007861	3.8e-14	DNA mismatch repair protein MutS, clamp
	[257-347] IPR007860	2.6e-09	DNA mismatch repair protein MutS, connector
Orthology group	MCL13947		Single-copy universal gene

Nucleotide sequence:

>DPOGS208174-TA
ATGTCAAAACGTAATTCAAATCCTGGTGCGAATACACTCTTCAATTATTTTACTAAAACTCCGCCTTGCAATAAAAAACTAAAACCAAGTGAGGATTCTGAAGCCGATAATGTTTTAAATTCCCCCGTGAGCAGTAAAAAAGGGAATAAAACTGAAAGCAAGAAGCGAGAAAGACAAGCGACACCTTCACCCGATCCGAGAAAGAGTGATAGTGAAGACGACGTTCCAGTTGTTGTTAAAAAGAGGAAAAGAATTAGACTTAATCCAGTTGACTCCGATGACTCTGATATTGAAAACAAAGTAGATAATAAGATTGGTTCACCAGAGGATAAAGTTTCTTTATCCACCAGGAAGTTGCAGGATAATTTCACTTTTGGATCTCCTAAGAGTGCATCACCTAAAGTCACCAAGACTAAAAAAAATCCAAATGAAGCTCAGCCCACCATCAAAGAAGAACCAACGTCCCAATACACAGAGGATGGTAACTGGGTTCATTGTAAACTGGATTGGCTGAAACCGGAGAAAATCAGAGATGCTACGAAAAGGAAACCAGATCATCCCGACTATGATCCCAGCACTTTATATGTTCCGCCGGACTTTATGAAGAGTCAGACACCAGCTCACAGGCAATGGTGGGAAATGAAGTCTAAGTACTATGACTGCGTATTGTTCTTCAAAGTTGGAAAATTCTATGAGCTGTATCACATGGACGCCGCTGTTGGGGTCAATGAGCTCGGATTCTCTTATATGAAGGAATACAATGGCGTTAGCAAGTACGGCGTTTGTTTCGTAGATACGACGACAGGACAGTTCTACATCGGTCAGTTTGAGGATGACAAACATTCATCTCGTCTCCTCACCACCGTTGCACATTATCCGCCAGCTTTAATTGTATTCGATCGTAAAACAACAAGTGCTCGTACAAGTAGACTGCTGTCAACGCATTGTCACAGCGCGAGACGTGAACCCACTACACTGTGGGCTCCCGAAAAGACTTTGAAGATTCTAGCTGAGAAATATTATAAAACTGACGGCGACGGAAAATGGCCTACCGGGATTACGCCTTTCCTACACGAGGAGCAAAAATGTCATCCGGACTCCAGAGCTATATTTTATGAAGAAAAAACTTATTCGAAGAGAAAAGTATTGGATTTCATACTATTGTTGAACGGGTTCACGTCTATATTGAAGCTGGTTGACTTATTCTCCGATGTGGATGCAGAGTTACTGAAGAAATTAACCCAATTTGCTCCGGAAGGCAGATTTCCTGATTATAGAGATACTTTGAAATTTTTCAAGGAGGGTTTCAACCAACAAGAGGCGGAGAAAGAAGGTCGTATACTACCTGGTAGCGGTGTTGACGCAGACTACGACAACACTATACAACTCATACAGAACATACAGGATGAATTGAAGGAATACTTGAGTGAGCAGGAGAGATACTTCAAATGTCGGTTAACGTATGTTGGAAGTGATAAGAAACGTTATCAAATAGAAGTTCCACAGAGCGCAGCGGGGAAGGCAAATTCTGATTATCATCTAGAAGGTGCTAGGAAAGGATTCAAGAGATATTCAACAGTTGAAACAAAGGATCTGCTGGCGCGAATGATAGCCGCCGAGGAAAAGAAAAGTAACGTACTGAAAGATCTTAGCAGACGGATGTTCGAGAAGTTCTCATCGCATCAGCACCAGTGGGAAATGGCCACCAAATGTGTCGCCACTATCGATATATTGTTAGCATTCACAGAGTTCGCTAGGCAACAGACTGGGGATATCTGTCTACCGGAAATCACGTACAATAAGGACCAAGAGCCCTACATAGACATAGTGGAGGGTCGCCACCCGTGTATTTCTATACCAGAGTTCATTCCTAATGATACGAGGCTGGGTGTTGACAACCCTCGCCTGCTGCTGCTGACTGGTCCCAACATGGGCGGCAAGTCTACACTCATGAGACAAGTCGGACTCCTCACCGTGTTAGCGCATCTGGGCTGCCACGTACCAGCTTCAGAATGTCGTCTGAGTGTGTGTGACCGTATCTTCACCAGACTGGGGGCCTCGGATGATATTCTGTCCGGTCAGTCGACGTTTTTGGTTGAAATGAATGAGACAGCGGCCATAGTGAAGCACGCGACCAAACACTCGCTGGTACTACTGGATGAATTAGGTCGCGGTACATCTACATACGATGGTACGTGCATCGCGTGGTCAGTATGCTGGTGGCTGGCTGGCCGGTCGTGTCGCACGCTGTTCTCAACTCACTATCACTCGCTAGTCCATCACCTGGCTGATCATCCCGCCGTACTTTTAGGACATATGGCGTGCATGGTAGAGACCGACGAATCTGCCCCGGATGGTGACCATATACCGGAGGAAACGATAACCTTTTTGTACAAACTCTCCCCCGGTGCCTGTCCGAAGTCATACGGCTTCAACGCGGCGCGGCTAGCGGGGATCCCCCGGGAAATAACGCAACGCGCACACACGATATCACGCAACCTGGAGAGCGAGGCGACGTGTGTACGCGCCTTTAGAGATGTCATCAAAACGGACAACGCGGCTGAGTTGAGGAAAATATTGTCAGCCCTGACCATATAA

Protein sequence:

>DPOGS208174-PA
MSKRNSNPGANTLFNYFTKTPPCNKKLKPSEDSEADNVLNSPVSSKKGNKTESKKRERQATPSPDPRKSDSEDDVPVVVKKRKRIRLNPVDSDDSDIENKVDNKIGSPEDKVSLSTRKLQDNFTFGSPKSASPKVTKTKKNPNEAQPTIKEEPTSQYTEDGNWVHCKLDWLKPEKIRDATKRKPDHPDYDPSTLYVPPDFMKSQTPAHRQWWEMKSKYYDCVLFFKVGKFYELYHMDAAVGVNELGFSYMKEYNGVSKYGVCFVDTTTGQFYIGQFEDDKHSSRLLTTVAHYPPALIVFDRKTTSARTSRLLSTHCHSARREPTTLWAPEKTLKILAEKYYKTDGDGKWPTGITPFLHEEQKCHPDSRAIFYEEKTYSKRKVLDFILLLNGFTSILKLVDLFSDVDAELLKKLTQFAPEGRFPDYRDTLKFFKEGFNQQEAEKEGRILPGSGVDADYDNTIQLIQNIQDELKEYLSEQERYFKCRLTYVGSDKKRYQIEVPQSAAGKANSDYHLEGARKGFKRYSTVETKDLLARMIAAEEKKSNVLKDLSRRMFEKFSSHQHQWEMATKCVATIDILLAFTEFARQQTGDICLPEITYNKDQEPYIDIVEGRHPCISIPEFIPNDTRLGVDNPRLLLLTGPNMGGKSTLMRQVGLLTVLAHLGCHVPASECRLSVCDRIFTRLGASDDILSGQSTFLVEMNETAAIVKHATKHSLVLLDELGRGTSTYDGTCIAWSVCWWLAGRSCRTLFSTHYHSLVHHLADHPAVLLGHMACMVETDESAPDGDHIPEETITFLYKLSPGACPKSYGFNAARLAGIPREITQRAHTISRNLESEATCVRAFRDVIKTDNAAELRKILSALTI-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: