MonarchBase - Protein-coding gene

DPOGS202600
Transcript	DPOGS202600-TA	3360 bp
Protein	DPOGS202600-PA	1119 aa
Genomic position	DPSCF300140 - 413973-418719
RNAseq coverage	7x (Rank: top 86%)

Annotation
*Heliconius*			%
*Bombyx*	BGIBMGA006345-TA	1e-50	38.59%
*Drosophila*			%
EBI UniRef50	UniRef50_UPI0001CB94FF	8e-31	30.00%	UPI0001CB94FF related cluster n=1 Tax=unknown RepID=UPI0001CB94FF
NCBI RefSeq	XP_002730726.1	2e-31	30.00%	PREDICTED: MutL protein homolog 1-like [Saccoglossus kowalevskii]
NCBI nr blastp	gi\|291221411	3e-30	30.00%	PREDICTED: MutL protein homolog 1-like [Saccoglossus kowalevskii]
NCBI nr blastx	gi\|242022721	6e-58	22.79%	DNA mismatch repair protein, putative [Pediculus humanus corporis]

Group
Gene Ontology	GO:0005524	3.7e-61	ATP binding
	GO:0006298	3.7e-61	mismatch repair
	GO:0030983	3.7e-61	mismatched DNA binding
KEGG pathway	tgu:100230617	5e-30
	K08739 (MLH3)	maps->	Mismatch repair
InterPro domain	[7-1106] IPR002099	3.7e-61	DNA mismatch repair protein
	[7-131] IPR003594	8.8e-13	ATPase-like, ATP-binding domain
	[893-1054] IPR014790	1.7e-12	MutL, C-terminal, dimerisation
Orthology group	MCL22120		Insect specific

Nucleotide sequence:

>DPOGS202600-TA
ATGTGTACATTGAAATCTGCCCCTAATAAATATGGTTATCGTGGTTTATCTTTAGCAAGTGTTATAGGAATTTCACAGACTGTTTTAATTACTTCAAGATATAATGATTCTGACTCAACATGGCTAAAAACGTTTTGTAATGGAACAGAGAAGAATATTTGTATTGTATCAACAAGACCATCAAAAGGCACAACGGTAGAAATCAGAGGATTCCTATACAATCTAAACATTCAAAGAAAAGCAATAAATCCTATAAATGAATTACAAAACATCAAATCATCTTTAGAGAAATTGTCATTAATTCACTGTGATGTATCTATTAGCTTAAGGGATGATTATAAGAATAAGATTATATTTAAAATGTACAAAAAAAGAGATATTTATCAAACTTTATGGTCTTTATTTGATATTAATAAAGAAGATGTTCAAGAATTGCAAGTTGAAAAAAATAATTATAAAGCAAAAGCATTTATTGCCAATGAAAATATAATGAAAACCAGACATTTTAATCATCAATGGGTATATTTAAATGGAAAATTTGTTACAAAATCTGAAATACATACAAAAATAAACAGAGTTTTTAAAAAAACTTTCCATAAAGTACAAAAAATTACAAAAATTAAGAATAATATTGATGAAGACCATAACAGTGATATACCATTTTATTTTATATTTATATCATGTCCATTTTATGATTTTGACATAACATATAAGCACAAACAAACAATAGTTGAGTTTAAAGATTGGTCAGAAAAATCAAAATATATCGATCATATTGCCCTTAAATTCAAAAATTTAACCGATAGCGTTAGAGATAGACGTAAAATATTATCATCGGAAGCACGAAATTTAATTAAAAAGAAAGAATCTAATACTGAAACTATCAAAATAACTTACACAGCAGAGTATAACGAAACTTATTCGTATTATAAGGGGAAAGACGAATTAAATATTGATTATAGATTTGTTAGTAAAACCGATATCAGAGATACTCATCGTATATTCGATTCTGAAACATTTAAATCATTACATCCGAAAATTACATTTGACAGTCACAACTGTCAAAATTATGCGAAGACAAGGAATATATTCACAAAAAATTTAAACTGTGCTAACACAACTGATAAAATACATTTGGATGAACATGATTCGAATATTTGCCACGAAAATTTAAAAAGATTTAGTGATAACGGATGTTATGATGAAAATAGTTTTATAAAATATAATAATGAGCAAATGTCGTATACGATAAATAGTGATACCAGTAAAAGAATAATTATTAGTAATAATTCATATTTAAATAAATATATAGAGACAGAAACTAACGCAGATAAGATTAATTTATTCGATTTGATCGATAAACGATTATCGAATAAATCAAATTTAAAGACATCATACGATAAAGAAAATTTTCAAAATAAAAGAAACAGTAGTTATAATAAACCATATCATGCATTGATAGCTGATAATATAAGACAAAATAATGGGATAGATTTAACGTACCTAAGTTACAAAAACTATCAAAAAAAATATACTAATACTGTACGAAATAACACAGAAAGGGTCAAGTCAATAGGCGACGCACACTATAAAGAATTATCCCAAAATTTTCATTCTGTAAACTATTGTGAAACGATTTACCATAGCAATGAAATTAGTTTCGTAGCCGGAGACCTCCAAAATCGTAATAATTGTGTCAAAATAAGTCCTGATGATTTCAAGTCGCCTGAACAAACTCACAAAGAAAATTCAAATTTCTTTTTGCTAAATAATGAAGATATTCATCACGATAATAATATATTTCAAGAAGCAAATACTAATACGGAATTGCACCCTGTAGTAGAAAATCCGGTTCAAGACTTAAATAGTTATCAATTTATAAAGAGCCATGGCTGCAAGAAATCAAATATCGCAATATATTTCGATGCAGAAGATTTTCCGAATAAAGACAAATTTAACCTCAATGAAACATATTCCGTAATAAAAACAAATAACTTAAGGGAAAACAATGACGTAGATTTGAATTTAATGAGTAATAAAAATTATACACAAGATTATAATCAAAACGAAATGAATAAAACTGAAATAATTGATAATAAGGAATTATCACAAAGTTTGGATCCTATGAATTATTGCGAAACGTTTTTCCGACGCAGCGAAATGAGTGACATTGCCAAAGAATTTATGAACAGCTTCAACATAAATACAAACGACCTGGGTTCTAACGAATGTGATCCTATTTCTAATGCTCACAATGAAAATTTCAAACTTAATTACTCCAATGATGAAAAAATACAAGACGAAGAAAAAATATCACAAAATTCAAACACTAATTCCGAACTGCACAGCGCAAAACGAAATTGTGTTGAAGATTTAAAAACTTTTGAATTGAAAAAACGTCATGACTTGATGCCGAAAGGTATGTCCCAAGTCTACAAGACTAGACTACAAAAACAAACTAATATAAGTATATCTCAAATCGACTATTACGAGAATATAATGTATGACAAATTTGCAGACGATGTTTTCGTAAAATCTAAAATATTTGCACCATCGATACAGAATGCTGAAGTCAATTCAAGGAAATTGAAGAATTGTGATATTAGAAATGATGATCTAATATTTAATGCCACGTCTTTGAGACAAGCCAAAGTAAGCTGGGGTGTTAGTACCGAGATTCTAGGTCAAATAGATCGTAAATTTATTGCCACAAAAATGAACGGGAAGAAAACTGACGTTAATGTAGATTTTTTGGTACTCTTCGATCAGCACGCGGTCGATGAAAGAGTTAAACTTGAAAGGAATTTAGCGGAATACTTTGACGGAGAACTCTGGCGTAGCGTTAAAGTAGATTCAATACCACTCAAGCTGAATGAAAACGAACTTGTCTATTTGCATAACCACAGACATAAATTCTCGCAATTCGGTTTACAGTGGACATTTCAAGAGAACAAAATATCGATCAATTCTATACCTAAAGCAATTATAGGCAAAAATGCCAGACAGGAGCAAATAGTTCTTAAAGCTGTTCACCGTCTGATATTAGAACAAATTGATGTCATTGAAACGATTGGTGGTAATCTGAATGTATTTCCCAAAGCAATTATGGATCTTGTTTTCAGTGAGGCTTGTCGGAATGCAATTAAATTTGGCGATAACGTATCTCTAAGTGATTGTACAACTTTGCTTAAGTCACTTTCATCCTGCAAAATCCCATTTCAATGCGCACATGGACGTCCTGTGATGACAGTCGTAATGGAACTTCCTAAAAACATTCGTAATTACAGGGTGGACAAGGAAAAGATTAAACAATTCAAATCACGTAAATATAATTCGAATAAATATATTGCTAGACATTAA

Protein sequence:

>DPOGS202600-PA
MCTLKSAPNKYGYRGLSLASVIGISQTVLITSRYNDSDSTWLKTFCNGTEKNICIVSTRPSKGTTVEIRGFLYNLNIQRKAINPINELQNIKSSLEKLSLIHCDVSISLRDDYKNKIIFKMYKKRDIYQTLWSLFDINKEDVQELQVEKNNYKAKAFIANENIMKTRHFNHQWVYLNGKFVTKSEIHTKINRVFKKTFHKVQKITKIKNNIDEDHNSDIPFYFIFISCPFYDFDITYKHKQTIVEFKDWSEKSKYIDHIALKFKNLTDSVRDRRKILSSEARNLIKKKESNTETIKITYTAEYNETYSYYKGKDELNIDYRFVSKTDIRDTHRIFDSETFKSLHPKITFDSHNCQNYAKTRNIFTKNLNCANTTDKIHLDEHDSNICHENLKRFSDNGCYDENSFIKYNNEQMSYTINSDTSKRIIISNNSYLNKYIETETNADKINLFDLIDKRLSNKSNLKTSYDKENFQNKRNSSYNKPYHALIADNIRQNNGIDLTYLSYKNYQKKYTNTVRNNTERVKSIGDAHYKELSQNFHSVNYCETIYHSNEISFVAGDLQNRNNCVKISPDDFKSPEQTHKENSNFFLLNNEDIHHDNNIFQEANTNTELHPVVENPVQDLNSYQFIKSHGCKKSNIAIYFDAEDFPNKDKFNLNETYSVIKTNNLRENNDVDLNLMSNKNYTQDYNQNEMNKTEIIDNKELSQSLDPMNYCETFFRRSEMSDIAKEFMNSFNINTNDLGSNECDPISNAHNENFKLNYSNDEKIQDEEKISQNSNTNSELHSAKRNCVEDLKTFELKKRHDLMPKGMSQVYKTRLQKQTNISISQIDYYENIMYDKFADDVFVKSKIFAPSIQNAEVNSRKLKNCDIRNDDLIFNATSLRQAKVSWGVSTEILGQIDRKFIATKMNGKKTDVNVDFLVLFDQHAVDERVKLERNLAEYFDGELWRSVKVDSIPLKLNENELVYLHNHRHKFSQFGLQWTFQENKISINSIPKAIIGKNARQEQIVLKAVHRLILEQIDVIETIGGNLNVFPKAIMDLVFSEACRNAIKFGDNVSLSDCTTLLKSLSSCKIPFQCAHGRPVMTVVMELPKNIRNYRVDKEKIKQFKSRKYNSNKYIARH-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: