MonarchBase - Protein-coding gene

DPOGS212234
Transcript	DPOGS212234-TA	3402 bp
Protein	DPOGS212234-PA	1133 aa
Genomic position	DPSCF300263 + 211212-219709
RNAseq coverage	59x (Rank: top 68%)

Annotation
*Heliconius*	HMEL016797	0.0	84.90%
*Bombyx*	BGIBMGA004446-TA	0.0	74.77%
*Drosophila*	CG10137-PA	2e-133	38.74%
EBI UniRef50	UniRef50_Q9VIU5	4e-131	38.74%	CG10137 n=11 Tax=Diptera RepID=Q9VIU5_DROME
NCBI RefSeq	XP_973537.1	3e-149	43.25%	PREDICTED: similar to CG10137 CG10137-PA [Tribolium castaneum]
NCBI nr blastp	gi\|350419555	2e-150	43.48%	PREDICTED: centrosomal protein of 104 kDa-like [Bombus impatiens]
NCBI nr blastx	gi\|350419555	2e-147	42.01%	PREDICTED: centrosomal protein of 104 kDa-like [Bombus impatiens]

Group
KEGG pathway
InterPro domain	[1-153] IPR008979	7.9e-07	Galactose-binding domain-like
Orthology group	MCL14968		Single-copy universal gene

Nucleotide sequence:

>DPOGS212234-TA
ATGCCGAAACGTATACCCTTCCACATAGTTTACGCAACCAGTGAAGATAGTTCATATCCAGCATGCGAGTTGAACGCCCAGGGTCCTGCGGCTCGCGGATGGCGGAGCGCTGGTCCTCCGCCCCACGAGCTCCTGCTGCGCCTCACCGCCGTTACCAGCATACACAAGCTACAGCTTCTAGCTCATCATCAGCTGATACCTGCTTGCGTAGAAGTGTTAGTGTCTGGAGGTCTGCTGTCAGAGGGAGCTGCGACACCGTGCGGAGCAACTTACACTAGTGTCGGTAGAGTGACACTCGCCAAACCAGCGCCCCAAGCACGCACTAGAGAACTAAGATCGGCTGCTCTGCCCGAGCCAACGGTAGCTCGCTTCGTAAAACTGAGGCTATCTGGACCACATCCACCAGCAAAAGACGATGAGCAGGTTGCGTTAATGGCTGTAAACGTTCTTGGTGATGAGGTGGAAGACGTCGCCAAATCGTTGCCAACAACAAAAGCTGAGGTGTGTTTCTCGCCTTACGATGACCTGGCCTTCGTTATGTATGTGGACAATGAAATTGCGGATCTCGTTCGTAATTTAGATGAAAAGAAAAAAACAGCTGTATGTGAAGAACGATTCGAATATGCACGACGGCTCAAATCAGCTGGTCAGGCTTTAGCTGCTGCGGGCATCAGGATCGGGAGATGGAGACTTCGCAAGAGAACCGCCGCAGCTCGGGATGACTTCGAACTGGCGAGACGCATGAGAGACAGAATAGCAGACGCACTGATCGGCGTCCAAGAAGACCCAGAGTTGAGGAGACTATTTGAAGATGATGGACCGGACACTCGCAACGACTCTTCTATGCCCCAAGCCTACGACTTCTCCCACCATCTGTCGCCGTCCGTCGCTATGGGAGTTCATAGCGTCGAAATTCCCTCGCCTGTACCGCCCATCGAACATTTACCAGAAAACGAATTCAATGGAGATCACATCGACAGTCATAATATACTCGCTTCACCCGTCCATATTCTTGAAGATGAAACCGAAGTACCAGAAGAACCGGCCCAACCAGATGAACCGATCCAAGAAGATAAAACTGAAGCTCAAAAGATAGAAGAAGAATTAAGAAAGGAGACTGAAAGTCCCCGTAGAAGTATAACTCCTACTGCCTCTAATGGTAATAGAGCATCAGAACTAAGCTATCCAGGTACATTAGTGAGACGAAGAAACAAAAGTGCTGGTCCCAGGTCTACTTTTGAAGCTTATGAAGAAAGATTATTGCCTGCACTCAGACATTCACATACAAACGAATACCTCCGTGAGGCCCGTGAAGAAGACTGCACAGGAAGCTCTTCTTCACATCCTCGTGTAGTACACAAGTTGAATGAGCGGGAACGAAAACAGGCCGCGCTGCCGATACTTATATTTGGATATCCTTTGGTTGAAAAATTCTTCTCCAAAAGCTATTTGGACAAGGAAGAAGGTCTGGCGCGCCTGCGAGCTGAGTTGACGTCACCATCGAACGGCAGCACCAAGACGTCTCCGAACAAAACAGCGCGAGCAGCGGCGACTTTGCTCCAGAGAGTTCTGAGAGATAAAGTATTCTCAGTCTACAGTCAAGCCAATGAAGTTGTCAGAGTGCTTTTCAAAGAATTCGTCCCTGAAAGGGTTTGCGCAGCGGAAGTAGGTCGATGTCTGGACAAACTCCTCCCTGAACTGCTGCGTGCTTGTGGGGACCCCGCCCCACGCGTGCATTCAACGGCTCAACACACCGTGCTCACAGTTGCTGACTGTCCTCTAGTCAGAAGCCTACACACAATTCCACAACAGCTTGTTCGACCTGTAGCTGCTTCCATGCATCCTCGACTAGCTCTCTCTCGTCTTCAGATGCTGGAACAACTCATCCTGAGCCATGGAATCTCGACCGACAAGAATAGTGGTCTGACGGTGCGTCGTCTAGCGGAGTGTGGTGCTGCAGGGGCTCAACACGCAGCGGGCTCAGTCAGAGCTGCTGCTGAAAGAATTCTCTTAGCAGCATACGCAAGATCCCCTAGAGTTGTCAGAGCACAACTTCCGCCAGACGATGCTGTCACCAGAAGAAATCTAATTTACAGACACCTCTTTCAACAATTTGATAGAATTGATATGCAGAAAATGCTAAATCAAGCACCTACAGAAGAACAACTTCTTAATGGAGATCAGTCCATTGCTGATTCAAACTTAGAAGCTAGCGTAACACAGTCTACACGAAGCGGGACTACGGTTAGTGGAATGACCACATCTTATGGAATGACGTCTTCTATGGATGCCACATCATCCTATAGCTTAAAATCAAGTGCCAGTGGTGGCACCCTGGCTCCTTCTAGTTTAAGTGGAAGTTTTACAACGTCGAGAACAAAAAGCAGTTTAAAAAAAACACCCACTAAAAAATACACACCGACAAAATCATCCAAAGACGCTACCAATTATCCTGGCTACAACAAACTAAGACTTGATAGTGCCATTAGTCCAAAACATTCCCCAAGATCATCAGTCGGTGGGAATGAAAAGGTCCATTTCCAGGAACGTCAAACGGAGGAAGTTGTGTTCCGTCGTACAAGCAGGAACTTAGAAAACCGCCACTCCATGATCCACTACGATCATGACTTGTCTAAACCCCAACTGAAAGAACGTCCAGTCACGGTTTACGAACCTCTACATTTAGAGTATAGAGACTCCCCTACTATAGGCTCGCCAAAAAATTCCAAAAATGACAACCGAAGCATGGACTCCCTTCCTATGGACTCGCCTCAAATGTCAAGAAACGATATGAGATGCGACTCTGATAGCAGAAGTTTGGATTCCCCTAAATTAAAGGCCGACTATTTTAGAGATGTGGGCTTGGAATCCCCAAAATTAGTAGCCGGGGTTAGAAATTTGCATTTGGATGAACAAAGCCAATTGGATGAAAGTGGATATTATAGTCCAGGACGAAGACAGCAGACGCAAAACAATGAGCCATACGAAGCTTATGAAGGAGTAGCAGCTGATGCTAGCAGTGAAACCACGCCGGAGCCAGTAACGAGCACATCTTGCACCTGGTGCGGTAGACGCGTGCGCACTGCTGCATTGGAGGCACACTACTGGCGAAGGTGCGTGCTTCTCGCTCGATGCCCGCACTGTCATCTTGCTCTAGAAGCCCGGGCTCTACACTCGCATTTACTGGAAGAGTGCTCGCTTAGCGAAGGATTGTGGAAGGCGTGCCAGAAATGTGGCGCGGCCTTACGTTCAGACGAAAGTGAATATCACGTCAACTGCACACCTTTAGGCTTGGATGAGTGGAAGTGTCCGTACTGTTTGACCAACATATTAGCTCGCGACCTTCCTTGGCAACGTCATCTGATGCAGTGTCCTCGCAACCCGAGACTAACACAACACTAA

Protein sequence:

>DPOGS212234-PA
MPKRIPFHIVYATSEDSSYPACELNAQGPAARGWRSAGPPPHELLLRLTAVTSIHKLQLLAHHQLIPACVEVLVSGGLLSEGAATPCGATYTSVGRVTLAKPAPQARTRELRSAALPEPTVARFVKLRLSGPHPPAKDDEQVALMAVNVLGDEVEDVAKSLPTTKAEVCFSPYDDLAFVMYVDNEIADLVRNLDEKKKTAVCEERFEYARRLKSAGQALAAAGIRIGRWRLRKRTAAARDDFELARRMRDRIADALIGVQEDPELRRLFEDDGPDTRNDSSMPQAYDFSHHLSPSVAMGVHSVEIPSPVPPIEHLPENEFNGDHIDSHNILASPVHILEDETEVPEEPAQPDEPIQEDKTEAQKIEEELRKETESPRRSITPTASNGNRASELSYPGTLVRRRNKSAGPRSTFEAYEERLLPALRHSHTNEYLREAREEDCTGSSSSHPRVVHKLNERERKQAALPILIFGYPLVEKFFSKSYLDKEEGLARLRAELTSPSNGSTKTSPNKTARAAATLLQRVLRDKVFSVYSQANEVVRVLFKEFVPERVCAAEVGRCLDKLLPELLRACGDPAPRVHSTAQHTVLTVADCPLVRSLHTIPQQLVRPVAASMHPRLALSRLQMLEQLILSHGISTDKNSGLTVRRLAECGAAGAQHAAGSVRAAAERILLAAYARSPRVVRAQLPPDDAVTRRNLIYRHLFQQFDRIDMQKMLNQAPTEEQLLNGDQSIADSNLEASVTQSTRSGTTVSGMTTSYGMTSSMDATSSYSLKSSASGGTLAPSSLSGSFTTSRTKSSLKKTPTKKYTPTKSSKDATNYPGYNKLRLDSAISPKHSPRSSVGGNEKVHFQERQTEEVVFRRTSRNLENRHSMIHYDHDLSKPQLKERPVTVYEPLHLEYRDSPTIGSPKNSKNDNRSMDSLPMDSPQMSRNDMRCDSDSRSLDSPKLKADYFRDVGLESPKLVAGVRNLHLDEQSQLDESGYYSPGRRQQTQNNEPYEAYEGVAADASSETTPEPVTSTSCTWCGRRVRTAALEAHYWRRCVLLARCPHCHLALEARALHSHLLEECSLSEGLWKACQKCGAALRSDESEYHVNCTPLGLDEWKCPYCLTNILARDLPWQRHLMQCPRNPRLTQH-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: