MonarchBase - Protein-coding gene

DPOGS215661
Transcript	DPOGS215661-TA	4989 bp
Protein	DPOGS215661-PA	1662 aa
Genomic position	DPSCF300041 - 1330157-1339068
RNAseq coverage	48x (Rank: top 71%)

Annotation
*Heliconius*	HMEL014128	0.0	59.60%
*Bombyx*	BGIBMGA003556-TA	0.0	64.50%
*Drosophila*	CG8950-PA	1e-87	31.79%
EBI UniRef50	UniRef50_UPI00020624AF	4e-134	34.02%	UPI00020624AF related cluster n=1 Tax=unknown RepID=UPI00020624AF
NCBI RefSeq	XP_001946729.1	1e-129	33.33%	PREDICTED: similar to DNA ligase IV [Acyrthosiphon pisum]
NCBI nr blastp	gi\|328721431	2e-133	34.02%	PREDICTED: DNA ligase 4-like [Acyrthosiphon pisum]
NCBI nr blastx	gi\|328721431	2e-134	34.02%	PREDICTED: DNA ligase 4-like [Acyrthosiphon pisum]

Group
Gene Ontology	GO:0006281	1.7e-86	DNA repair
	GO:0005524	1.7e-86	ATP binding
	GO:0006260	1.7e-86	DNA replication
	GO:0003910	1.7e-86	DNA ligase (ATP) activity
	GO:0006310	1.7e-86	DNA recombination
	GO:0005488	7.5e-29	binding
	GO:0003677	1.6e-24	DNA binding
	GO:0005622	1.6e-11	intracellular
KEGG pathway	gga:418764	6e-132
	K10777 (LIG4, DNL4)	maps->	Non-homologous end-joining
InterPro domain	[861-1380] IPR000977	1.7e-86	DNA ligase, ATP-dependent
	[1026-1235] IPR012310	6.4e-40	DNA ligase, ATP-dependent, central
	[633-739] IPR011990	7.5e-29	Tetratricopeptide-like helical
	[1243-1385] IPR016027	9.7e-25	Nucleic acid-binding, OB-fold-like
	[795-987] IPR012308	1.6e-24	DNA ligase, ATP-dependent, N-terminal
	[1245-1381] IPR012340	4.6e-20	Nucleic acid-binding, OB-fold
	[1584-1662] IPR001357	1.6e-11	BRCT
	[1261-1366] IPR012309	5.6e-10	DNA ligase, ATP-dependent, C-terminal
Orthology group	MCL11519		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS215661-TA
ATGGATGTGGATAAAGATCTTACTAATAAATTTTTAAGTGGTGAGATGTCTTTCTCCCAATACTCTAGTGAATGGTATAGTGGAGAAGAGGATGAAGATGAAGATGAGCCAGAGGAATCCAAAAAATATGAAGAAGAAGCTGAAATGTCTACCACAGTTTCAAAGAGAGGTCTTAAACGACAATCCAAGTTCCGTCGCCTCTTTCCTGCATTATCTGGTCTTATGGGAGAAGCAAATATAAGGCTTGCCAGGGGTGATAGTGAAATGGCTGAACGTATGTGCCATGAAATAATCAAACAACAACCCACAGCGGCTGAACCATATCAAACCTTAGCACAAATATACGAACATGATCCCAATAAATCATTGCAGTTTTCTTTGCTTGCTGCACATTTGAGTTTTACAGACAAAAGTGAATGGTGGAGACTCGCTGCATTATGTAGACAGAGAAGTGATTATAAACAGGAAATGGTCTGTTACACTCAGGCTATAAAATCTGAGCCACAAAATTTAGAGACACACTTGAAAAGGCTAGAGTTGTTGTCAGAATTAGAAAAACTACCGGACTTTCCCGTTAATTCACTGAAAGTATCTAAGGTGAAATGTTATCACAAAATTGTACGTTCCTTAGGACCTAGTGATGCTGAAACAATTATGAAGTATGCCAAAATGGCTGCAACTTTATATCACAACAGCACCGAAGTTGAACAAGCAGTTGAAGTGATGGGTATTGCATATAAAAAATGCTTTTCATTATTTACATTGGAGGATATTAATATGTATTTGGAGCTGTTAATTACTCAAAAGCAGTTCACCAAATGTATTGAAGTATTTGTTTCAAGTATAGGTGTGGAAATTGAAGCTGAAATTCAAACAGTGAAAAATGCTAATGGTGATATTGAAGAACAAACACACTACCTTAATTGTGTTATACCCAATAACTTAGCTATAGATTTGAAAAGTAAACTATTGGTGTGCTTTATACATTTAGGAGCACTTAATTTGGTCCAATCATTGCTTAATGATTTTTTGAGCAGTGATGTTGAAAAAGCTGGAGATCTCTATATGGATATAGAAGAAGCATTTTCAGCTGTTGGTCATTATGAGATGGCTATAAAATTATTGGAGCCTCTAATTAAAAATACTAGCTTTGATTTAGGAGCTGTATGGCTTAAATATGCAGATTGCCTGAACAAGTTGGGAAGACATGATGATGCTATAGAATCATATTACAAAGTGTTAAAGCATGTGCCACAACACGCTGACGCGAGGCGAAAGCTGTTTACAATTCTAGAAAACAAAGGAAGAATTGATGACGCTTTGAACATTCTACAGCAGGATTACAAATTTGTCGTCAGCGCTCATCTACTGTTTGATCATTGTCAATACTTAAAGAAATATAATAGAATGTTGAAATATTTGGAGGTAGGTGAAGCTCTGCTATCTCGAGATTTGACAAAATTTAGACATCCCGAAGAATTAAGAATCGCTTGTAGGACAAAGGGTGTGGTAGAACTTATTTACAATTTTCGATCTATGAGAGGCGAAAGTCCTTATCATAAGGATGATTTGCAATTTGAAGAAGAATCTTTTAGCCTTTTACCTAGCGAAGAATTCTTAATGTTCAAAGAACTTTTAAGTATAGCAAAGGAACACAAAATTTATAGCGTTTTACAAAGATTAACATTTATGGGTATGATATCGAAGGGTTTGTCGCATTACCGACCAGAAATGGAATTTTATTGCTTTCAAGCGTGTCTTCTTAATCGAGACTTCCCGAATGCTTGTCGATTTGTTAAAGACTTTTCTCTAAAATATTCCGGACCACGATCCTTTAATTTGCTAAGCTTCATCCTTAATTCTTTGGACGAAAACACTCACGGAAAATTCTTATCGCGACTGTTTCAAAAAGATTTTAATATTGTTAAAAATCTTTTTTTGGGTAATAATTTCCTAGTATCTGGAAGATATCTTGTTGCTCTGAAATACTTTCTTGAATATTACGAGCAGTGCAGAGAGCCTCTGTCAGCGTTACTTATAGCTGTTACTATATTGGCCATGGCAGCTCAGAGAACAGTGGACAGACATCATAATTTAATTTTACAGGGCTTATCTAAGTGCGATCAGGAAGCGTATTACAATATAGGGCGAGCTTATCAAATGTTGAGTATTAATAATCTGGCCATTGAATACTATGAGCGAGCCCTGGCGTGCCCTCCTCTTGCTCAATGTGAAGAACATGGCGTTATAGATTTAACTAAAGAAACTGCTTACAATCTGTATATATTGTATAAAGACCAATCCCCAGAATTAGCTCGGCGATATATGTTTAAAGTATTGTTTGAAATGAATACAACTGGTGTAATTACTCCAGCGGATGATGTATTATTCGGTGATCTATGTTCATTGTTAGAACAATTGCAGAAGAAGAAGAAACACAGACCAGAACAAAATAAACTATTATCAAATTTTGTTGACCAATTTAGGTTAAAATTAGCTAACACGCAGGGCTCCAAGAACTCTACTTTTTTTCCCATATTGAGGTTGCTCTTGCCAAGTTGTGATCGGGAACGTGGTCCCTACAACCTTAAAGAAACCAGACTAAGTACTTTATTGGTAAAAGTACTGTCTCTCAATAAAGAGTCGACAGATGCGAAACAACTGATACATTTTAGTTCTTCAAATAACTCAGTTCTAGATAGCGACTTCCCTGGTGTCGCGTTTTACGTTATAAAGAAAAGAGTTGGTCAGAATAATTCAGTATTGACAGTCAGAGAGATCAATGAGATACTTAACTCTGTTGCAACTGTAGATAATGTTCATAAAACTCCATTGGATGAAATTTTTAGTTATGCTTTAAAAAAACTGACTGCCATCGAATTCAAATGGCTTCTGAGAATAATATTAAAGGATTTAAAATTAAGTATGAGTGCAGATCGAATCTTGGGGATTTTCCATCCAGATGCCCCAGAGGTCTTCAAGAACTGCAGCAGTATTTTAAAGGTGTGCGAAGAATTAGAAGATGGCGACACTCGACCATCAGAACTGGGCGTCAATTTGTTCTACGCTGTAAGACCAATGCTGTCTGAGAGGTTGGACATCACACACATACACGTCTTGGATAAGACGAAGACCTACTGTATGGAGGAGAAGTTTGATGGTGAGAGATTCCAGATGCACATGGATAACAACGTATTTGAATACTTTTCACGGAAAGGTTTCAAGTACTCCAAAAACTATGGGCAAAGTTACGACTCCGGCATGTTAACGCCGTATTTGAAGGATATTTTTGCTCCTGAGGCGAGGAATTTCATTCTTGACGGTGAAATGATGGGTTGGCACAAAATAGATAATTATTTCGGATGCAAAGCGATGTCATACGATGTTAAGAAAATCACAGAGAACAGTTCGTTCCGCCCTTGCTTTTGCGTGTTTGATATTCTATATTATAACGACAGACCACTCATCGGCTCGCCAGATAAGGGCGGTTTACCTTTACGGGAACGACTCAAAATACTCGACGATCTATTCATAGACAAGCGAGGTGTTATAGAACATAGCAAGCGAAAAATTATCAAAGAAAGTTCAGAAGTTGTGGACGCCGTCAACGATGCCATAGACAATCAGGACGAGGGTATTGTAGTTAAAGATATAAATTCATACTACATCGCTAACAAAAGAAACGCTGGCTGGTACAAAATAAAACCGGAGTATACGGACGACACCATGAATGACCTAGACCTGGTGGTGGTTGGTGCTGATGAAGCCACCAACAAAAGACAGGGGCGTGCCAAAAGTTTCTATGTCGCGTGTGGGGATAACAATGATGGCGACCCTGTCTGGACCTGCATTGGCCGCGTGTCTAACGGACTGAAGCACGAGGAGAAGGAACGCGTTTGTTCATTACTTGAACGGAACTGGTGTATGTATAGGAAAAAACCTCCGCCTCCCTGTCTGCGCTTCGGCAAAGACAAGCCGGACTTCTGGATACTTCCAGAACATTCTATCGTATTGCAGGTGCGTGCCACCGAGCTGTTAAGCGTTGGGGACTCACACGTGCTGCGATTCCCGCGCGTGGAAGATATAAGATCAGACAAGCCGGTCGATGACGTGTGCACAATACACGAACTTAGACAACTGGCTGTGAGCAGAAGCCCGGTCAGTAAGCTAAGTACAAAGCGCGTAAACGAATCGCAAATAGATCAAAACTATATTAAAACACGCAAGCGCGGTCTGTCTAAGACCGTCCAAGTAGCGGAAAAATTCCGCACAAAGACGATTGGAGACGTGCAAGTTATATCACGAGCTTTGTTTGGGAAGAAACTTTGTGTGTTGTCGGATGACGAGGATTGTAAGAAAACGGAATTGAAACGCGTCATAGAGTCCCACGGAGGGAGACACGTTGAGAACCCAGGTTCAGATACTTGGTGCTGTGTAGTGGGAACTATAACACCGCGAGCCCGTAGACTCATAGAGACACAAGACCTAGACATCATTAGCACAGCCTGGCTCAGAAGCCTACCAGCGACAGACGACCCGTGTCAACTGTCGCCATTGGACATGCTATCAATCAAACCCGAAACGAAGCTCAAACTGAGCCTAGACTACGACCCCTTCGGTGATAGTTACAAGGATGAAATAGATGAAAAAACATTGAAGAAACTGCTGGACAAAATGGATTCGGAGTTCCCGTTGTATCCAACTTTAAAAGAAAAAGTCTGTCTGGATAAACAATTATTCGGCGCCAACAATCCTTACTCATTTTTGAGGAATTGTTTCATTCACGTTATTGACAATTCGCTTTACGAAACTATGGCGTCCTTTTTCGGAGCCAAAATCTGTTCTCTCGATGACGTCAGACTGACGCACGTCGTTATGTCAAAAGACGCGAATGTCAAAATAGATAAAGGAATTCTAGTGTCGGATGGATGGTTGGAAGAATGTTTTAACAAAAGGAGTTTTGTTCCTGTCGATGATTATCTAATTTAA

Protein sequence:

>DPOGS215661-PA
MDVDKDLTNKFLSGEMSFSQYSSEWYSGEEDEDEDEPEESKKYEEEAEMSTTVSKRGLKRQSKFRRLFPALSGLMGEANIRLARGDSEMAERMCHEIIKQQPTAAEPYQTLAQIYEHDPNKSLQFSLLAAHLSFTDKSEWWRLAALCRQRSDYKQEMVCYTQAIKSEPQNLETHLKRLELLSELEKLPDFPVNSLKVSKVKCYHKIVRSLGPSDAETIMKYAKMAATLYHNSTEVEQAVEVMGIAYKKCFSLFTLEDINMYLELLITQKQFTKCIEVFVSSIGVEIEAEIQTVKNANGDIEEQTHYLNCVIPNNLAIDLKSKLLVCFIHLGALNLVQSLLNDFLSSDVEKAGDLYMDIEEAFSAVGHYEMAIKLLEPLIKNTSFDLGAVWLKYADCLNKLGRHDDAIESYYKVLKHVPQHADARRKLFTILENKGRIDDALNILQQDYKFVVSAHLLFDHCQYLKKYNRMLKYLEVGEALLSRDLTKFRHPEELRIACRTKGVVELIYNFRSMRGESPYHKDDLQFEEESFSLLPSEEFLMFKELLSIAKEHKIYSVLQRLTFMGMISKGLSHYRPEMEFYCFQACLLNRDFPNACRFVKDFSLKYSGPRSFNLLSFILNSLDENTHGKFLSRLFQKDFNIVKNLFLGNNFLVSGRYLVALKYFLEYYEQCREPLSALLIAVTILAMAAQRTVDRHHNLILQGLSKCDQEAYYNIGRAYQMLSINNLAIEYYERALACPPLAQCEEHGVIDLTKETAYNLYILYKDQSPELARRYMFKVLFEMNTTGVITPADDVLFGDLCSLLEQLQKKKKHRPEQNKLLSNFVDQFRLKLANTQGSKNSTFFPILRLLLPSCDRERGPYNLKETRLSTLLVKVLSLNKESTDAKQLIHFSSSNNSVLDSDFPGVAFYVIKKRVGQNNSVLTVREINEILNSVATVDNVHKTPLDEIFSYALKKLTAIEFKWLLRIILKDLKLSMSADRILGIFHPDAPEVFKNCSSILKVCEELEDGDTRPSELGVNLFYAVRPMLSERLDITHIHVLDKTKTYCMEEKFDGERFQMHMDNNVFEYFSRKGFKYSKNYGQSYDSGMLTPYLKDIFAPEARNFILDGEMMGWHKIDNYFGCKAMSYDVKKITENSSFRPCFCVFDILYYNDRPLIGSPDKGGLPLRERLKILDDLFIDKRGVIEHSKRKIIKESSEVVDAVNDAIDNQDEGIVVKDINSYYIANKRNAGWYKIKPEYTDDTMNDLDLVVVGADEATNKRQGRAKSFYVACGDNNDGDPVWTCIGRVSNGLKHEEKERVCSLLERNWCMYRKKPPPPCLRFGKDKPDFWILPEHSIVLQVRATELLSVGDSHVLRFPRVEDIRSDKPVDDVCTIHELRQLAVSRSPVSKLSTKRVNESQIDQNYIKTRKRGLSKTVQVAEKFRTKTIGDVQVISRALFGKKLCVLSDDEDCKKTELKRVIESHGGRHVENPGSDTWCCVVGTITPRARRLIETQDLDIISTAWLRSLPATDDPCQLSPLDMLSIKPETKLKLSLDYDPFGDSYKDEIDEKTLKKLLDKMDSEFPLYPTLKEKVCLDKQLFGANNPYSFLRNCFIHVIDNSLYETMASFFGAKICSLDDVRLTHVVMSKDANVKIDKGILVSDGWLEECFNKRSFVPVDDYLI-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: