MonarchBase - Protein-coding gene

DPOGS203534
Transcript	DPOGS203534-TA	2529 bp
Protein	DPOGS203534-PA	842 aa
Genomic position	DPSCF300055 + 116229-127217
RNAseq coverage	330x (Rank: top 35%)

Annotation
*Heliconius*	HMEL005760	2e-109	65.37%
*Bombyx*	BGIBMGA009181-TA	4e-115	67.72%
*Drosophila*	DNA-ligI-PA	2e-109	63.29%
EBI UniRef50	UniRef50_B4INA3	1e-107	63.29%	GM13668 n=1 Tax=Drosophila sechellia RepID=B4INA3_DROSE
NCBI RefSeq	XP_001606591.1	3e-111	66.20%	PREDICTED: similar to ENSANGP00000010547 [Nasonia vitripennis]
NCBI nr blastp	gi\|307187908	5e-110	65.85%	DNA ligase 1 [Camponotus floridanus]
NCBI nr blastx	gi\|307187908	8e-105	65.85%	DNA ligase 1 [Camponotus floridanus]

Group
Gene Ontology	GO:0006281	9e-87	DNA repair
	GO:0005524	9e-87	ATP binding
	GO:0006260	9e-87	DNA replication
	GO:0003910	9e-87	DNA ligase (ATP) activity
	GO:0006310	9e-87	DNA recombination
	GO:0003677	2.4e-56	DNA binding
KEGG pathway	nvi:100122984	9e-111
	K10747 (LIG1)	maps->	Base excision repair
			DNA replication
			Mismatch repair
			Nucleotide excision repair
InterPro domain	[561-823] IPR000977	9e-87	DNA ligase, ATP-dependent
	[364-514] IPR012308	2.4e-56	DNA ligase, ATP-dependent, N-terminal
	[681-826] IPR012340	3e-54	Nucleic acid-binding, OB-fold
	[680-827] IPR016027	7.2e-51	Nucleic acid-binding, OB-fold-like
	[560-672] IPR012310	4.5e-28	DNA ligase, ATP-dependent, central
	[697-808] IPR012309	1.1e-25	DNA ligase, ATP-dependent, C-terminal
Orthology group	MCL12338		Single-copy universal gene

Nucleotide sequence:

>DPOGS203534-TA
ATGTCCCAAAAGAGTATTAAATCGTTTTTTAAAATAACTCCTAAGAAAACTGAAGTTATAACCGAAGCAGCGAATCAGGAACGTAATGCATCGCCATCCAATACAAGTATCAATAGTGAAACTGACAGTCCAAATGGAAATGCAAAGAGAGGTAAAAGATTGAGATCAAGTAGCAGTGAACATGAATCTGGAGAGGGTAAGAAGATTCCATCTCCAAGTAGTTCAGAGAAGAAAAAGAAAGTCAAACGTCAGAGAATTGAAAGTTCGGAGAGCGAAACAGAAAATACAGTAGAGGAAGAGAAAATGGAGGTGAAACTTGAAAATAACAATCCACCCAAAACTTACGCCTCACCGAAGGCCAAGAAAATGAATGAGAAGAAAATAAAGATAGAGAAGGAGCGATCACCAGAAAGTAACGATAGAAAAACAGAAGTGAAAAGTCCATCTCCTGTTAAGATGCCAAAGAATAAAGCGAATGGTAACATTATGAGTTCATTTGTAAAGATTGAGAGGCCGGACACAAAGAAAGATAAAGAAAATATTACAGACGCAGATAAAGATAACTCTGACATAGTTAAAGGTATGCGTAATGCATCGCCATCCAATACAAGTATCAATAGTGGAACTGACAATCCAAATGGAAATGCAAAGAGAGGTAAAAGATTGAGATCAAGTAGCAGTGAACATGAATCTGGAGAGGTTAAGAAGATTCCATCTCCAAGTAGTTCAGAGAAGAAAAAGAAAGTCAAACGTCAGAGAATTGAGAGTTCGGAGAGCGAAACAGAAAATACAGTAGAGGAAGAGAAAATTGAGGTGAAACTTGAAAATAACAATCCACCCAAAACCTACGCCTCACCGAAGGCCAAGAAAATGAATGAGAAGAAAATAAAGATAGAGAAGGAGCGATCACCAGAAAGTAATGATAGAAAAACAGAAATGAAAAGTCGGTCTCCTGTTAAGATGCCAAAGAATAAAGCGAATGGTAACATTATGAGTTCATTTGTAAAGATTGAGAGGCCGGACGCAAAGAAAGATAAAGAAAATATTACAGACGCAGATAAAGATAACTCTGATATCGTTAAAGAAGTTGATTACAATCCCGGTAAAACGAAATACAATCCGATCAAAGATGCCTGCTGGAAGAAAAGTCAAGATGTACCATATCTGGCGTTAGCAAAGACCCTAGAAGTCATAGAAGCGACGTCTGCTAGACTTAAAATGGTGGAGATATTAAGTAATTACTTCAAGTCGGTCATAGCATTGACTCCAGAGGATCTTCTGCCTAGCATATATCTGTGTTTGAACCAACTAGCACCAGCGTATAAGAGTCTTGAATTAGGTATAGCTGAGACATACTTGATGAAGGCCGTGGGTCAGTGTACAGGGCGGACCCTCGCACAGATGAAGGCGGCTGCACAGCGCTGCGGGGACCTGGGTCTGGTGGCGGAGCAGGCTCGCGCTACACAGAGGACGATGTTCGCTCCCCCGCCCCTCACCGTGAGGAAAGTTATTACGGCGCTCAGAGACGTGGCCGCTATGACGGAAATAAAAGACTGCAGTCTCTGGAAAATGGACGAAGCATTTTCTGGAGATTTCCGGCCAGGCGTCTGTCAACAAAAAAATTGGGAAAATCCAATCGCTTTATGTTGCATGCAGACATTCAGAAGCCAGATATCTGATCAGGTGTTATCGACTCGCAAACGGAAGGACGCGTCCGAGGACCAGATCAAGGTGCAGGTGTGTGTGTTCGTGTTCGACCTGCTGTACCTCAACGGAGAGGCGCTCGTCAGGGAAGACCTGGAGAAAAGGAGGGAGCTGTTGAGGCAGCACTTCAATGAGGTCGAAGGTGAATGGCAGTTCGCGGTGAGCCGTGACTGTACCGACGAGGAGGAGGTGGCTCAGTTCCTGCAGGAGTCTGTGAAGGCATCCTGTGAGGGTCTCATGGTGAAGGCGCTCCGGGGAGAGAATGCGCGCTATGACATAGCCAGGAGGTCGCACAACTGGCTGAAGTTAAAGAAGGACTATCTGGAGGGCGTGGGCGACTCCGTGGACGCGGTGGTGATCGGCGCTTATCACGGGCGGGGGAAGAGGACGGGCGTGTACGGCGGGTTCCTGCTGGCGTGCTACGACCCCGCTCACGAACAGTACCAGTCGCTCTGCAAGATAGGCACCGGCTTCTCCGACGAGGACCTGCGCACGCTCAGCGACACGCTCGCCGAACACGTCGTAGACGGACCCAGGAGCTACTACTTGTTCGACTCGAGCCACTCCCCGGACGTGTGGTTCTCTCCGTCGTGTGTGTGGGAGGTGCGCTGTGCGGACCTGTCCCTGTCCCCGGCTCACCGCGCCGCTCTGGGCCTCGTACATGACAGTAAAGGAATCAGTCTGCGGTTCCCGAGGTTCATCCGTGTCCGTGACGACAAGTCCGCGGAGCTGGCGACCTCCGCGGAACAGATCGCAGAGCTCTACCTCCGGCAGGACCAGGTCAAGAACACCACCAACAACAACCAGAGAGACGACTTCTACTGA

Protein sequence:

>DPOGS203534-PA
MSQKSIKSFFKITPKKTEVITEAANQERNASPSNTSINSETDSPNGNAKRGKRLRSSSSEHESGEGKKIPSPSSSEKKKKVKRQRIESSESETENTVEEEKMEVKLENNNPPKTYASPKAKKMNEKKIKIEKERSPESNDRKTEVKSPSPVKMPKNKANGNIMSSFVKIERPDTKKDKENITDADKDNSDIVKGMRNASPSNTSINSGTDNPNGNAKRGKRLRSSSSEHESGEVKKIPSPSSSEKKKKVKRQRIESSESETENTVEEEKIEVKLENNNPPKTYASPKAKKMNEKKIKIEKERSPESNDRKTEMKSRSPVKMPKNKANGNIMSSFVKIERPDAKKDKENITDADKDNSDIVKEVDYNPGKTKYNPIKDACWKKSQDVPYLALAKTLEVIEATSARLKMVEILSNYFKSVIALTPEDLLPSIYLCLNQLAPAYKSLELGIAETYLMKAVGQCTGRTLAQMKAAAQRCGDLGLVAEQARATQRTMFAPPPLTVRKVITALRDVAAMTEIKDCSLWKMDEAFSGDFRPGVCQQKNWENPIALCCMQTFRSQISDQVLSTRKRKDASEDQIKVQVCVFVFDLLYLNGEALVREDLEKRRELLRQHFNEVEGEWQFAVSRDCTDEEEVAQFLQESVKASCEGLMVKALRGENARYDIARRSHNWLKLKKDYLEGVGDSVDAVVIGAYHGRGKRTGVYGGFLLACYDPAHEQYQSLCKIGTGFSDEDLRTLSDTLAEHVVDGPRSYYLFDSSHSPDVWFSPSCVWEVRCADLSLSPAHRAALGLVHDSKGISLRFPRFIRVRDDKSAELATSAEQIAELYLRQDQVKNTTNNNQRDDFY-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: