MonarchBase - Protein-coding gene

DPOGS209028
Transcript	DPOGS209028-TA	3867 bp
Protein	DPOGS209028-PA	1288 aa
Genomic position	DPSCF300102 - 284356-291137
RNAseq coverage	21x (Rank: top 79%)

Annotation
*Heliconius*	HMEL005276	0.0	62.09%
*Bombyx*	BGIBMGA010029-TA	0.0	55.64%
*Drosophila*	CG14608-PC	1e-36	47.86%
EBI UniRef50	UniRef50_UPI0002061E65	1e-42	44.22%	UPI0002061E65 related cluster n=1 Tax=unknown RepID=UPI0002061E65
NCBI RefSeq	XP_001942936.1	6e-43	50.30%	PREDICTED: similar to CG14608 CG14608-PB, partial [Acyrthosiphon pisum]
NCBI nr blastp	gi\|328714284	4e-42	44.22%	PREDICTED: hypothetical protein LOC100159478 [Acyrthosiphon pisum]
NCBI nr blastx	gi\|322794841	1e-58	26.05%	hypothetical protein SINV_15483 [Solenopsis invicta]

Group
Gene Ontology	GO:0008061	9.7e-14	chitin binding
	GO:0006030	9.7e-14	chitin metabolic process
	GO:0005576	9.7e-14	extracellular region
KEGG pathway
InterPro domain	[99-160] IPR002557	9.7e-14	Chitin binding domain
Orthology group	MCL25682		Lepidoptera specific

Nucleotide sequence:

>DPOGS209028-TA
ATGATTTCCTTAAAAACAATCTGTGTTTTAGTCGCTTTAAATTTGGTGCAAACTTGTCACTGTGCTCGACAACTGGCGAATCGAAGAAAGGATACATCGTCCTTGTATCTTCCCGAACCAAGTGCGCAGTCACTGACAGCGATCGCACAAGCGATGGGAGCGGCGGGATTCGAAGACTACACGGAAGGAAAGACACTCGTCAAGCGACTGATAACGGCCGATGACCAGTCTGAGCTTGATGTTGTTGAACATATGGGTGTAATAGGAAAGGCAGGTGTTGACTTCCCAGCTCTGCCCAATATCCCCAAAACCGGATTCAACTGCAAGAACGTGCCCACGGGTTATTATGCTGACTTGGAAACCGATTGTCAGGTATTCCATATCTGTGACACGTCTCGCAAGATATCGTTCTTGTGTCCAAATGGCACCATCTTCAGTCAGTCGCATCTCATCTGTGACTGGTGGTTCAAGGTGGACTGTGCATCCGCACCGGCTCTGTACGAGGCTAGTGTAGAGTACTACTCCAATGAACAAAAAAAGTCTCAGAAAGTAGGAAGAACTCTCTCCAAAAACTCTAATAACCGAAATGTCGGTGCCGATTCTCAGGTTCGAACCGAATCTAGAAAAGCACCTATACCCTCGACAACAGAAAAACTTCTAAGACAGTCCCAAAATTCACAAACTAATGAACCTGTACCCACTGACGTTCCTACAACCAGAAACTATCAGACAATCTTTGATATTAATCCAACGTATGCTACCACTGAATTTGAAAACCGGAAAAAGAACCTCGTTCAGCTTATTTCAAATGATTTCAGCAACTATCCATCTAAAACAACTCTACCTGTATACGACTCAACAACCCGCAAAACTACTGAACCAGTATATGACCATAACAGCTTGAGGGAAATGCAAGTAGCTGCGGAAACAGCTTCTTTTGCCCAAAACCAAAATCGACAATTTTTACAAGAATATAATAGTAAGAACCTCAGACCATACCCTGTATATAACCATAATTTACAAGTCAAACCATCCAAAACTAAGACTCTTACCACTTTATATGATATAACAGCCACCAATGCTCCTCAATATACACAGCAAGCAACAACAAAACGACAAACTTTACTACCTTACACCAAAAGTTACACAATTAACGATAATCGTGATCCTTACACAAGGCCAGGAGTTTCTTTGCTAAGGGAGTTTCTAGAGAAGGAAAGAAATAAAACTCTGCTTGCTACAACTGAAAAAATTGCTACAATTCGAAGCGATAAACAGAAAAGCAAAATAAACCCGGAGAAAAAAGGAGAAACAGATAACAGGAGCAGTTTTGAATCTACTTCTAAAATACCATATACCAGTAAAACCGTTGGACAAACTGAAACTATTTTAAACGTGGAACATTCTACTGAGCCAACGACGGAAATATCGTATAAAGATCGCAGGGAGAGATTATTAAGAAAAATTGCGTTAGACAGAAAGGACGCAGAAACGACGCCGCCGACTGTTGTTACGGAAAAATATTATGGTAACCAATCGAATAGACCCGGGCTTGTTGTACCACCATCACTAACTCCTAAAACGCTTCATTCGCTGGCTATATATTATGCCACAGCCTTAGATAATTTTGCTACAACACCCACACCTGAAGATACCGAAACAACTACGTATTCTATGGATATGTATGAAAAAGTCACGGAAGGGTTGCCACCTTTATTTAGCAAGCAGACAATAACTAAATATGGTAATCTCTTTGGACTTGGAACAGGAAACGACGAAATGCTTGAGAATATTAAAATAGACCCAAATAGCTCGATAAATGAACTCGCAGAAGATCTGTCAGCACAAATGAGTCAAGGACCGTTAGCTTCATCTCCACAAATAAGAGAATTAGCGCAAATATTTACACACGCACTCTCCGCTTATCTACAGGATCCAGTAAAATTTAGAAAAGTTTTATCAGACATTAGACCAACCCATCCATCTTTTTCTGATATGTTAGTTGATACAGACGCTTCATTTAATACAGAATCTACTACTACAGTCAACGAAGAAGACGACGAAATACTTGGATTTTCGGATGATCATAAAATCAGAGCAATAGAAAATTCCTTACGCAGTGGGAAATCAATAAATATCGCCACTGATTATCCAACTACTATTGAAGAAGTAACTACAACAGTTCAACCAACAACTGAAATTGAAACCACTACGACACCAAGAAGTCCCTTTAGATGTTGCGGAAGAATATCGGCTTCTTACACAACTGCTCCAACGCCCAGCAAACACTACTTTACTTCCATTCCATCTAATACCTTTGCAGCGGGGAAAATAAATTCATTAACTAATTATAATACTGAGACTCCTAAAAGTGAATATATCAATACAAAATTGTCAAACGGATATTTCATCAACTCCAATATAAAACAACTTCCCGTAACTGATTCTCAATTTTCCAACGATTACACTGAAACTACTACCTTGACAACAGAATCAGATATCGACATTTTTGATTACACTCTTTCTCCGATAACTAATTCACATCAGTTGTTTGAAAGTAAGAAAATAAAGACGACAACAAGTACACCGGAATCTACCCCTAAAAACTTCGCCGAGACTGACAGTATTGAACTAGAAAATGAAGAAGAACTCCAAAGAGCACACAGTCAGTCTTTTGTTACGCCTCAAGCAAATAGTGTCCGTAAAGGCAAGCAAATAAATCAATTTGTGAACAAAGAATTAAAGAAACCTGCTGAGGATTTAGAAGCACCGACTCAAGCATCAATAGATTTAACGACACTTGCACCAACTACTACCCAAGCCACTGCTTCAACTCTTTCAGACCAAACTTCGACTTTAACCACCGTGAATCCTTCACAAACTAGTATATTTACTTCTCCAGATAGTGAAAAAAATAATAACGATTTCCAATGGCCAACCACTTTTGGTAATTGGCAAAGCACAATCATAGATCCCATCACCCTTAACGATGGCTTAAGTTCTACTGGACCCGAGCAAGTAGTATCTGAAATATCTCAACAAACTAACGAATGGCCATTAGAGGCTGCGACGACTCAATCTACGTTCATAACAACCAATGAACCCGTCTCTACGACAACTGTTAATGTAGAAATAACAACAAACATCAAAAATTATGAAAGATTTGGTAGACTTCTTTCTGACCCTTCATCGACTGAAGCCTCTCAAGATATATCAACTGTTACAGACACTATCGTCGAAAAAGCAAAGCAAATAATGGGAGGAATGAATTCAACAACGACGCAAAAACTCATGAACGTCATGAAAAAAACGAAATCAAAGACAGTCAAACGTTTAATTCTCCTTTTAGTGCAAACGTGTGACGACGATCACAATTCGACAGCGGAAGCTTCAAAGAAAGCATTGCTAGAAGCTCTGATGGCCGTCTCGCAGAAAGATATGGACGAAATAGAAAAAGAAGAAGAATCAATAGAAACACATTCGGCAGAGTCTTTACCTGATGGGAAAACAAAGGAATTCGAACGCCGAATGGACAGGATTCAAGTGGAACCTAGACAGAATAAAAATATAAACACAGAGGCCGAGGAAGTCAACTCCTTATCAACTCCCACCACAACTGAGAGTTTTAAGACCGAAGAGACACAAACCACACCAGTCACAACAGCTAGAACTACACGAACGAGTCGAAGAGGAAGCAGAAAATATTCGTTTTCTACAGAATCAGAACAAACACATACCACGGCGGGAGACCGACCGCTCGCCGAGGCGAGGACAGCTCCGCGGCCCGAAGTCAAAACACAATCAGACACGAGGGCTTTGGAACTATTGAGATCATTGTACACCATCGCCGCGAGGTGGGGCAAATAG

Protein sequence:

>DPOGS209028-PA
MISLKTICVLVALNLVQTCHCARQLANRRKDTSSLYLPEPSAQSLTAIAQAMGAAGFEDYTEGKTLVKRLITADDQSELDVVEHMGVIGKAGVDFPALPNIPKTGFNCKNVPTGYYADLETDCQVFHICDTSRKISFLCPNGTIFSQSHLICDWWFKVDCASAPALYEASVEYYSNEQKKSQKVGRTLSKNSNNRNVGADSQVRTESRKAPIPSTTEKLLRQSQNSQTNEPVPTDVPTTRNYQTIFDINPTYATTEFENRKKNLVQLISNDFSNYPSKTTLPVYDSTTRKTTEPVYDHNSLREMQVAAETASFAQNQNRQFLQEYNSKNLRPYPVYNHNLQVKPSKTKTLTTLYDITATNAPQYTQQATTKRQTLLPYTKSYTINDNRDPYTRPGVSLLREFLEKERNKTLLATTEKIATIRSDKQKSKINPEKKGETDNRSSFESTSKIPYTSKTVGQTETILNVEHSTEPTTEISYKDRRERLLRKIALDRKDAETTPPTVVTEKYYGNQSNRPGLVVPPSLTPKTLHSLAIYYATALDNFATTPTPEDTETTTYSMDMYEKVTEGLPPLFSKQTITKYGNLFGLGTGNDEMLENIKIDPNSSINELAEDLSAQMSQGPLASSPQIRELAQIFTHALSAYLQDPVKFRKVLSDIRPTHPSFSDMLVDTDASFNTESTTTVNEEDDEILGFSDDHKIRAIENSLRSGKSINIATDYPTTIEEVTTTVQPTTEIETTTTPRSPFRCCGRISASYTTAPTPSKHYFTSIPSNTFAAGKINSLTNYNTETPKSEYINTKLSNGYFINSNIKQLPVTDSQFSNDYTETTTLTTESDIDIFDYTLSPITNSHQLFESKKIKTTTSTPESTPKNFAETDSIELENEEELQRAHSQSFVTPQANSVRKGKQINQFVNKELKKPAEDLEAPTQASIDLTTLAPTTTQATASTLSDQTSTLTTVNPSQTSIFTSPDSEKNNNDFQWPTTFGNWQSTIIDPITLNDGLSSTGPEQVVSEISQQTNEWPLEAATTQSTFITTNEPVSTTTVNVEITTNIKNYERFGRLLSDPSSTEASQDISTVTDTIVEKAKQIMGGMNSTTTQKLMNVMKKTKSKTVKRLILLLVQTCDDDHNSTAEASKKALLEALMAVSQKDMDEIEKEEESIETHSAESLPDGKTKEFERRMDRIQVEPRQNKNINTEAEEVNSLSTPTTTESFKTEETQTTPVTTARTTRTSRRGSRKYSFSTESEQTHTTAGDRPLAEARTAPRPEVKTQSDTRALELLRSLYTIAARWGK-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: