MonarchBase - Protein-coding gene

DPOGS210451
Transcript	DPOGS210451-TA	3423 bp
Protein	DPOGS210451-PA	1140 aa
Genomic position	DPSCF300062 + 128431-132148
RNAseq coverage	0x (Rank: top 98%)

Annotation
*Heliconius*	HMEL015131	4e-150	34.92%
*Bombyx*	BGIBMGA001857-TA	6e-135	32.26%
*Drosophila*	CG5756-PA	3e-31	36.92%
EBI UniRef50	UniRef50_B4MYL7	4e-30	45.08%	GK22055 n=1 Tax=Drosophila willistoni RepID=B4MYL7_DROWI
NCBI RefSeq	XP_002066220.1	7e-31	45.08%	GK22055 [Drosophila willistoni]
NCBI nr blastp	gi\|195436529	1e-29	45.08%	GK22055 [Drosophila willistoni]
NCBI nr blastx	gi\|307185283	4e-28	27.31%	hypothetical protein EAG_06682 [Camponotus floridanus]

Group
Gene Ontology	GO:0008061	6.2e-13	chitin binding
	GO:0006030	6.2e-13	chitin metabolic process
	GO:0005576	6.2e-13	extracellular region
KEGG pathway
InterPro domain	[42-109] IPR002557	6.2e-13	Chitin binding domain
Orthology group	MCL21152		Lepidoptera specific

Nucleotide sequence:

>DPOGS210451-TA
ACTTTTGCAATACTCCGGAGCAGAGCACAAAATGAAAAAAGTCGTCGACCTTTTGACAATGGCCAAGACTTTGAAGTAAAGCTTGCCGTACCAGGAAAACCTGGAAATGACTACCCTGTTTTTCATCGAATTCCAAGAACCTCCTTTACTTGTTCAGGAAAAGAACCCGGTTATTATGCCGACATGGAAACAAATTGCCAAGTATTTCGAGTCTGTACATTCGGTTCAACTTTTGGCTACCAATCATTTCTATGTCCCAATGGAACCTTATTCAATCAAGCTGTCTACGTTTGTGATTGGTGGATGAATGTTAATTGTACAAAATCAAAAGAATTCTATAATTATAAAAGTGAATTATTAAATTTAAGGAACGGACCACATTTTATGAGGGATATTAAAAAAATGATAACACATCCTATGAGAAATCCTTACGATCAGAGCTTTGCCAAAGATCGTTTAATTATAATTCAAAATTACCAACCTCCGAATAGCCCTTTTAATAGTCTTTCTAAGAATTATGCACCAAAAAACTCCAGCGAAATAATATCTCAAGTAAAAAAAAATAGTACTACTGATGTCTTAACTGCTACTTCGAAACCTACTACCTACTACTATTCAAATTTTAATATTTTTCCAACAAGTAACAAAAGTTTTAGCCCTGTACGACAGCAATCTCAAAAATCATTTCCTCAACAAAAAGTAGGAACAAATTACAAACAACGTCAATTTTCTAACAGTCATTCGGGTCAAGCCTTACCAAATAAAACAAAAAATGTATTAAGTTACACAAAACGTTTGCAAAATATAGTAAAACCAACTCAGTCAAATCAAAGAGTTCAGCAGTTTTTGAATCATCATCATATCCCAGCTCCTTCAAGTCAAGAAAATAGATTAGTTATTAATGGCCAACAAAGCTATCCGACACAAAATACTTTAAGTAACAACCATTCCAAGGTACAACTAAATCGGCATATATTACAAGACAAAGAATTGTATTCCTACAAACACAATCAAGCACGCTTTTCAAAAGATACTAGGAGTCAGGTCAACATAGCATCACAACAAAACTTGGTGAGTAACGATAGCTCACCTACCCTTATAAGAAAAACTTTAGCGTTTCGAGAAATAATAAAAGATCCTAAAAACGGAACTCCAAGATCTAAAATAACATTTAAAACTTGGATTTTAAGACCCTCCAACAGTGAAAAATTATCCGCGGACCCAACGCCATACACTTACAATACACCAAAAGTTACCATAATTGACGATAACGATTCAGACGTTATTAGTAATACTTCTGAGGAATCTGAAGATCACACTGACCTTGATTTAGAACCCTATCAATATAATCCACCAACAAGCTCAAGCGCTCTAACTTATGAAACAACCACTGAAATTCCCTTAACAACTAAAACTAGTTTTAGCCCTTCAGAACCAACAAAACCTTCATTTTTATATCTACCTCCAACGACTTATAAGACACCGATACTTTTGTATAATTATCCAACAAACAATATTCAAACACNACGTCAGTATTTACTTCCAGAAATAATACAGAGCCCTCTCATAGAACTAAGTAGTTCCCCTGTACCTTTTATACAATCACATACAAACGTGAAAGAGCCTATTTTACCTCTAAGGAAAAAAAATTCAACACAAATAAATCACAACCATAATTTATTTACAAATACACTGCTAAAAAATAACTTAGAAATAGTAAAAGATTTACTGAAAGATACAAATAAATTATTTAGAATAATATCACCTAACAACATTTATGGGCTTAAACAAGAAATTAAAACAATTGATTATCTTGATGAAAACTTACCACAAAATATACAAGACCAGGTCCATGACAAAACGTTACAACAATCTCCTACAGAATTACCCAAAAATTCTAAACTCATTGCAACGCCATCAATTGTGTTAGAACCACCTGATGAGAGCTATGAATATAGTTTTAAAAATTCTAATAAATTATCTTATTTATCCTTCATAAAACAACCAATTATTCCTACAATAGAAAGAACAGTTTCCATTAAAATAACTATGCCCCAAAAAATTGCAGACTTTATATTTAAAAAAAATGTTTCTGATAATTTAGAAATCTTAAGCACAGAAAACACGAATTCCTTTGTGCTGGCTAATAAAATGCCAAACAAAGAAGACTCTCATCAATACGTTCCCATCGGCAAACTTGTTTGGAATAATAGTTCTGATACTTCTCCTTCTCAGGAATTGCTTTTTTCTTTTTTGGCAGACTCTATTAGTGCAGCTCAAGAACATAAAAATATTGCCAAACAGGAAAATTTTCAGCCAACACCAACACATTTCACATACCTAAATAAAAATGGAATAGGATCTATATCTGATAAAATATCACAAATGACATCAGAACAATTTTCAAACATAAAGCTCTCAAGTAACGATCAACTTTCGAGAAGAGCAAACCTAAATAATTTAAACAATGACTTACAAACCAGAGGCTACAAACAGATAGAAATCGATAATTCAGTAAATCGTCACCAGAACAAAACACATCAGGATTTGATTAATGCTAAGCAAATCGCCGGCAGTCATTTGTCTGATACAGATTCAAATTTGCAATCAAATGTGGAACCTATATACAGCGGTCAATTGTACCAACTTTCTGTTCCAGAAGTTACAAAACAGTTTTATAATTTTCTATCCCAAAAAAAGAGCAAATACAGTGTAAACTATGAAGGGAAGAATAACGAAAATAAATACAAACCATCACAATCTGAATTTGAAATGATAAAATCACAAATATTATCGCCCGAATCTAACCCTAGTAAACTAAATCAGAAATCAATAGACCAGAGAACTACAGCTTACGACTTTAAAGACAACATCATTATACCTAGCGACAGTATAGCTGCACAGATACATGACAACACAATAGGAATTATTCCTCATCCATTACAAAAAGATAAATTAATAAATTATAAGAAAGACAACATCTACTATATTTATACAAATCTAAACGATACTGATATAAACGACTTCAAGAGAAACAACATACTTAACAGGCCCTTCATTTCAAGACCAAACAGTAAACTTTCGGAGCTAATAGATAATATAATACCGTCAATTAAGTATGACCTTGAAACTGATATTAAAAAACAAACTACTCCGAATACATTGCAGCAAGATACATTTGGTATACAAAGCCAAGAGATTGGTGCTGATATCACTTACATAAACAATCATCCCGAAACAAGAAAGCCATTCGATAAATCATACCAGGGCCCCTCATCATACAATGCACCTCAAGGTACAGTTGGCAATTTGGAATTTAATAAAAACTCAATAGAACTCAATGACGATATAGAAAAGATCGATAATTATGAAATCAACGGTTATCCGAAACTCATTCCTACAAAACGATTTTCATTTAGATAA

Protein sequence:

>DPOGS210451-PA
TFAILRSRAQNEKSRRPFDNGQDFEVKLAVPGKPGNDYPVFHRIPRTSFTCSGKEPGYYADMETNCQVFRVCTFGSTFGYQSFLCPNGTLFNQAVYVCDWWMNVNCTKSKEFYNYKSELLNLRNGPHFMRDIKKMITHPMRNPYDQSFAKDRLIIIQNYQPPNSPFNSLSKNYAPKNSSEIISQVKKNSTTDVLTATSKPTTYYYSNFNIFPTSNKSFSPVRQQSQKSFPQQKVGTNYKQRQFSNSHSGQALPNKTKNVLSYTKRLQNIVKPTQSNQRVQQFLNHHHIPAPSSQENRLVINGQQSYPTQNTLSNNHSKVQLNRHILQDKELYSYKHNQARFSKDTRSQVNIASQQNLVSNDSSPTLIRKTLAFREIIKDPKNGTPRSKITFKTWILRPSNSEKLSADPTPYTYNTPKVTIIDDNDSDVISNTSEESEDHTDLDLEPYQYNPPTSSSALTYETTTEIPLTTKTSFSPSEPTKPSFLYLPPTTYKTPILLYNYPTNNIQTXRQYLLPEIIQSPLIELSSSPVPFIQSHTNVKEPILPLRKKNSTQINHNHNLFTNTLLKNNLEIVKDLLKDTNKLFRIISPNNIYGLKQEIKTIDYLDENLPQNIQDQVHDKTLQQSPTELPKNSKLIATPSIVLEPPDESYEYSFKNSNKLSYLSFIKQPIIPTIERTVSIKITMPQKIADFIFKKNVSDNLEILSTENTNSFVLANKMPNKEDSHQYVPIGKLVWNNSSDTSPSQELLFSFLADSISAAQEHKNIAKQENFQPTPTHFTYLNKNGIGSISDKISQMTSEQFSNIKLSSNDQLSRRANLNNLNNDLQTRGYKQIEIDNSVNRHQNKTHQDLINAKQIAGSHLSDTDSNLQSNVEPIYSGQLYQLSVPEVTKQFYNFLSQKKSKYSVNYEGKNNENKYKPSQSEFEMIKSQILSPESNPSKLNQKSIDQRTTAYDFKDNIIIPSDSIAAQIHDNTIGIIPHPLQKDKLINYKKDNIYYIYTNLNDTDINDFKRNNILNRPFISRPNSKLSELIDNIIPSIKYDLETDIKKQTTPNTLQQDTFGIQSQEIGADITYINNHPETRKPFDKSYQGPSSYNAPQGTVGNLEFNKNSIELNDDIEKIDNYEINGYPKLIPTKRFSFR-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: