MonarchBase - Protein-coding gene

DPOGS203760
Transcript	DPOGS203760-TA	2829 bp
Protein	DPOGS203760-PA	942 aa
Genomic position	DPSCF300010 + 98417-113786
RNAseq coverage	129x (Rank: top 56%)

Annotation
*Heliconius*	HMEL002565	50.29%
*Bombyx*	BGIBMGA011490-TA	67.27%
*Drosophila*	spel1-PA	40.97%
EBI UniRef50	UniRef50_E2C8G1	43.31%	DNA mismatch repair protein Msh2 n=9 Tax=Formicidae RepID=E2C8G1_HARSA
NCBI RefSeq	XP_001121207.1	44.39%	PREDICTED: similar to mutS homolog 2 [Apis mellifera]
NCBI nr blastp	gi\|350423484	45.65%	PREDICTED: DNA mismatch repair protein Msh2-like [Bombus impatiens]
NCBI nr blastx	gi\|350423484	45.69%	PREDICTED: DNA mismatch repair protein Msh2-like [Bombus impatiens]

Group
Gene Ontology	GO:0005524	3e-91	ATP binding
	GO:0006298	3e-91	mismatch repair
	GO:0030983	3e-91	mismatched DNA binding
KEGG pathway	ame:725348	0.0
	K08735 (MSH2)	maps->	Colorectal cancer
			Pathways in cancer
			Mismatch repair
InterPro domain	[685-872] IPR000432	3e-91	DNA mismatch repair protein MutS, C-terminal domain
	[353-640] IPR007696	2.3e-55	DNA mismatch repair protein MutS, core
	[198-338] IPR007860	3.1e-13	DNA mismatch repair protein MutS, connector
	[81-176] IPR007695	3.7e-08	DNA mismatch repair protein MutS-like, N-terminal
Orthology group	MCL11845		Single-copy universal gene

Nucleotide sequence:

>DPOGS203760-TA
ATGCCGGACCTGCAAGCTTTGGCCCGGAGACTGGCTAGGAAGAAAGCTGGCTTACAGGACTGTTACAGAATATACCAGGCTATCAACCGCATTCCCGTCCTATTGAAGTGTCTGTCTGAGTTCAACGACCCCACGATACATTCGGTGCTCTGTGAACCGATAGCTGAACTTAACAACGACCTGGAAAAGTTCCAGCAGATGATTGAAACTACCATCGACCTAGAAGCTGTTGACAGAGGTTCGAAACCTCCAACAACAGTACGTATATTTCACAGAAATGAGTATTACAGCGTTCACGGGGCCGACGCTACGACCGCTGCCAGAGAAGTATTCTCCTCCACATCAAACATCAAGAGAATGGGCATCGAGCCTAACAAACTAGACTATTTGGTCCTATCGAAGGGAAACTTTGAGATACTCATCAGGAAATTACTATTGGTACGGAGATACAGAGTCGAGATATTTGTGTCGGAGGGATCAGTGAAGTCCTGTGATTGGTCGCTCAGGTACAAAGGTTCTCCTGGATACCTGTCCCAATTGGAGGAAATTGTCGGGGACGGTTTAGGATCCGCCAATGAGCAATCTACATGCTTGATGGCCGTCAATGTCAAGAGTGACGCCATCAGTAAGGGCCGCCTAGTGGGCATAGCGTGCGTGTATCAGAACGATTACACTTTATCAGTGTCGGAGTTCACTGATGATGTTGACTTCACCCAGCTAGAGTCGATCGTCGTACAAGTGGCGCCCTCTGAGTGCGTTGCGGCGCCGGCTGATAACGATTATAAAGCCTTAAAGAAGGTTATGGACAGAGCGAGTGTGACGGTGACGAAGGTCAAGAAGTCGGAGTTCACGACGGAAGGTCTCATCCAGGATCTGAACAGACTTCTCAAGTTCAAAGAGGATCAGCAAAAAGATGCCAATGGATTCCAGGAAACCAAACTACCGGTGGCCATGAGCGCTCTGGCAGCCGCCGTTAGATATACGTCGCTGTTAAACGATGACACGAACTTTGGAAGGTTCCGCATATCGTCAGTGAAGGCCGACTACCTTCAGCTGGACTCCTCGGCCCTGTCGGCACTGAATGTGTTCCCTGAACTCGGTGATACGAACACTTCGCCAACCAGGAGCATCTACGGACTACTCGACAGATGTAGAACACAGCATGGAAAACGACTTCTGTGCCAGTTGCTTCGTCAGCCTCTTAGAGACATCAACCTGATCAACGAGCGCCTGGACATTATCCAGCTGTTGCAGTTGCATGAAGATCATCTTAGGCGGATGCCGGACCTGCAAGCTTTGGCCCGGAGACTGGCTAGGAAGAAAGCTGGCTTACAGGACTGTTACAGAATATACCAGGCTATCAACCGCATTCCCGTCCTATTGAAGTGTCTGTCTGAGTTCAACGACCCCACGATACATTCGGTGCTCTGTGAACCGATAGCTGAACTTAACAACGACCTGGAAAAGTTCCAGCAGATGATTGAAACTACCATCGACCTAGAAGCTGTTGACAGAGGTGATTTTCTCGTGAAGCCATCTTTCGATGAAGAGTTACAGGTACTAGCGAATGATCTGGAAAAATTACAAAACTCAGCTGAGAAAGAATTAAACAAAGCGGCCAGGGATCTTGACATGGAAGCGGGGAAAACTATTAAATTAGAAAATAATCCACAGCACGGTTTTAAATACACGATAGTGGATGCCATTAAAGGTGGGGTCAGATTCAGGAACAGTTGCTTAGGAGACATCACAGAGAACTACCTCCAGGCGAAGGCTGCGTACGAGAAGGAGCAAGATAAAGTAGTCGCCGAAATCATTAATATAGCTTCCACTTATTCGGAGTGTCTGTATTGCCTGTCCAATATAATATCTAAGTTGGATGTATTGGTGTCACTGTCTGTGGTGGCGAGTACCTCTTCATCCAAGTACACTCGACCAGTTCTCACTACCAGTATCCAGGATCTGGTGCTGAAGGATGTACGGCATCCGTGCCTCGAACTACAGGAAGGCGTCTCGTATATACCCAATGATGTTGTTCTCGAACGAGATTCGAGTCTGATGCATATAGTGACGGGCGCCAATATGGGTGGTAAATCCACGTGGATGAGGTCGTGTGGGGTGGCTGTGATCCTCGCTCACGTGGGGTCCTTCGTGCCAGCCGAATACGCCAAAATACCCATCCTAAGGTCTCTATGCGCTAGAATCGGTGCCAGCGATAGAGAGGAGAAAGGCCAGAGTACTTTCATGCTAGAGATGCTAGAGACGGCTGGGATATTGAGGAACGCTACGGCCGATTCTCTGGTCCTGATCGACGAACTCGGTCGTGGAACATCTACGTACGAGGGTTGCGGCATCGCTTGGGCTATCGCTGAAAAACTTTCAAAGGAGATCCAATGCTTCTGTCTGTTCGCGACCCACTACCACGAGCTGACCCGGCTGGCGTCGTGTGGTTCTCGCGTCGTCAACTCGCAGGCGCTGGCGGATGTCGTCGACGGCCGGCTCGTGTTGCTGCATCGCGTGGTACAGGGGCCAGCCGCCAAGTCTCTGGGGCTGCACGTCGCTAAGATCGCTGACTTACCGGAAGATATACTGCAGTTCGCAGAAGAGAAGCAGGCGGAGTTAGAAACGGATCTTTGCGAGGTCGAATCCGAAGTTAGATCTGAAGATACATCCGAAGGGCAGGCGTTCATCAAAGAGTTTCTCATAAAATGCAAGCAAATACAGGAAAAGAACGAGTCGGATGAAAAAATGATGGCTGAAATAAAGAAGCTGAAACAAGAAATGTTGCAGACGGATAACAAATATGTGGCCGCGTTGCTCAGCCGCTGA

Protein sequence:

>DPOGS203760-PA
MPDLQALARRLARKKAGLQDCYRIYQAINRIPVLLKCLSEFNDPTIHSVLCEPIAELNNDLEKFQQMIETTIDLEAVDRGSKPPTTVRIFHRNEYYSVHGADATTAAREVFSSTSNIKRMGIEPNKLDYLVLSKGNFEILIRKLLLVRRYRVEIFVSEGSVKSCDWSLRYKGSPGYLSQLEEIVGDGLGSANEQSTCLMAVNVKSDAISKGRLVGIACVYQNDYTLSVSEFTDDVDFTQLESIVVQVAPSECVAAPADNDYKALKKVMDRASVTVTKVKKSEFTTEGLIQDLNRLLKFKEDQQKDANGFQETKLPVAMSALAAAVRYTSLLNDDTNFGRFRISSVKADYLQLDSSALSALNVFPELGDTNTSPTRSIYGLLDRCRTQHGKRLLCQLLRQPLRDINLINERLDIIQLLQLHEDHLRRMPDLQALARRLARKKAGLQDCYRIYQAINRIPVLLKCLSEFNDPTIHSVLCEPIAELNNDLEKFQQMIETTIDLEAVDRGDFLVKPSFDEELQVLANDLEKLQNSAEKELNKAARDLDMEAGKTIKLENNPQHGFKYTIVDAIKGGVRFRNSCLGDITENYLQAKAAYEKEQDKVVAEIINIASTYSECLYCLSNIISKLDVLVSLSVVASTSSSKYTRPVLTTSIQDLVLKDVRHPCLELQEGVSYIPNDVVLERDSSLMHIVTGANMGGKSTWMRSCGVAVILAHVGSFVPAEYAKIPILRSLCARIGASDREEKGQSTFMLEMLETAGILRNATADSLVLIDELGRGTSTYEGCGIAWAIAEKLSKEIQCFCLFATHYHELTRLASCGSRVVNSQALADVVDGRLVLLHRVVQGPAAKSLGLHVAKIADLPEDILQFAEEKQAELETDLCEVESEVRSEDTSEGQAFIKEFLIKCKQIQEKNESDEKMMAEIKKLKQEMLQTDNKYVAALLSR-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: