MonarchBase - Protein-coding gene

DPOGS208176
Transcript	DPOGS208176-TA	4974 bp
Protein	DPOGS208176-PA	1657 aa
Genomic position	DPSCF300207 - 127473-143125
RNAseq coverage	550x (Rank: top 23%)

Annotation
*Heliconius*	HMEL006651	0.0	62.08%
*Bombyx*	BGIBMGA010263-TA	0.0	53.79%
*Drosophila*	cic-PD	8e-51	52.97%
EBI UniRef50	UniRef50_E2ADM3	3e-100	43.32%	Putative transcription factor capicua n=6 Tax=Formicidae RepID=E2ADM3_CAMFO
NCBI RefSeq	XP_002423691.1	7e-99	41.18%	capicua protein, putative [Pediculus humanus corporis]
NCBI nr blastp	gi\|307180359	1e-99	43.32%	Putative transcription factor capicua [Camponotus floridanus]
NCBI nr blastx	gi\|242005681	0.0	34.83%	capicua protein, putative [Pediculus humanus corporis]

Group
Gene Ontology	GO:0005515	1.1e-22	protein binding
	GO:0003677	2.6e-22	DNA binding
KEGG pathway
InterPro domain	[919-1011] IPR009071	1.1e-22	High mobility group, superfamily
	[938-1017] IPR000910	2.6e-22	High mobility group, HMG1/HMG2
Orthology group	MCL15552		Insect specific

Nucleotide sequence:

>DPOGS208176-TA
ATGCAGCGGCAGGCGGGCGGTGCGTCCTCGGCGCAGAGCCCGCGAGCCGTGTACCGCACGCACGCGTCGCACATATACGACATTGATGATCAGATACCAGCGTCTGTTATCAGTAGTGTGGGTACAGTGAGCCTGTCACAATCGACAACAAACCCAACGTCGAACACAACCATGGCCAGTCGCGGGAATACGATATCTAATAACAACACACCCCAAACACAAGCACCAGTACGGAACCTTCCCAAGAAGCGTAAATTTGATCCGTCTGAACTCGAGGAGATAGAACGTAATTGCGTCAACAGTATCGCTGAGAGGAACAGCCTGAATATACCCACAGCTGTCACGAATTCAATGGATTACACGTCAAGCTATCAGCCAATAGCTCAGCCATCCGTAGTACCGAGATCTTCCCCCCACGATACGAAACAATACATCCAATACCCTAACATAGATCTATCTGAGTGGCGTGATCACCGAGTGCTGGCTAAACATCGCGGGTTATACCTCCCAGGGGTGATAAGGCAGGCTGACGGCTGTAAGGTCACCGTGGAATTGGATGGACAGGATATTGAACCGATAGAGTACAGTGATTTGTTCGGTGTCAATAGATATGACGTCATAAGTGACGCGAGTCCTCAGCTCAGTCATTTACCGGTGGGGTCCGCCTGCGTGTTCAAGACCACAGACCCCGCCAGAGATGGAGGGCACAACGTGTTCGTCGAGGGTCAAGTCTTCGAAGTTAATAATTCTCCTATCAGGATTCGTGTTAAGGTTATAGAGGGCGACACTTGTAAGGAGGTGGTAGAGGTGAAGCGTGCTGATATCCGTCTTCGTCAACCGCCTTGGGCCGACGAGCTGGAGGACGCCGGGTCACACGCACCCGCTGTCCCTCATATGAGACAGCAGTGCGTCTCTTACTCTATGGGTGATCACTTCGCGACGTCGTCTCCTATGCCGGGCGCGTCTCACGTGTCTGTGGGGGCGCTGTCTGCTGGGTCGCGTCCCTTCGACGACTACGGCAGCGACGACGACCTGCCTAGCGAGAACATTATGTTCCCCACTGACGCCTCGCATATGGATTGTAATAACAGTAAGAGGAGCAGTCTACAGAGCAGAGGCAGCACATCCAGTCTGGTCGAGGGTAGCCTGACGCCTCGCTCCCAGCCACCTACACCTAGATCTCAAGCCGCCACACCTCATAAGTACAAGAAGGGTGACGTGGTGTCCACTCCCACTGGGATAAGGAAAAAGTTTAACGGGAAACAGTGGCGAAGGCTGTGCTCCAAGAACGGGTGCGGCAAGGAGAGTCAGAGGCGAGGGTACTGTTCACGACATCTCTCGCAGGGAGGCGTCAACAGGTCATCCAACACGCCGCTAACCCAGGGATCCACACATACTCCGCAGCAGAGAAGCAGCAGTAAGTCGTTATCATCGAACGGTACTGGTGTAGAGGGAGATGATACGTCCCGCGAGTCGGACACCACGCCGCCCAACTACCGCGTCACCGGCAGGTTCGACCAGGACGAGACAGAGGCCGCCAATATGCTTGTGTCACTCGGTAGTTCTCGTTCAGGCAGTCCGGGCGCGTCTCCAGTGAGCGGGTCGCCGGTGCTCCGCGGTAACGTGTTCGTGCCGATATCATCGCCACAGCCTCCGCTCAATAATCCTCCGCACAAGAACTACCATCACCACCTTATCAGACCTGAGTCACTACGTCCAGCCATAGTGAGTCCACCGGTGGGGGGCGTGGCCACTAGTGTCATAAGAGTCTCCCCCGCCCCCACCCATCACTATCAGGTAGATAATCGCAACGGACAAAATATTCAATCGAGCCAACCGAATATGATGGGACTACAAACGACGCCATACAACATACAGAGCAACATGCCATCCAATCTGAACGCGCCCACGACGATGCAATCGTCATTAAACTTCCCTACCATTATAAACAATCTGAATCAAAAATTTCAAACGTACGCCAGTTCAGTGCGACCGACCAAAATAGAGGATTCGTTACACAACGTGGTCGTCCACCGCATGCCCAGCAACGGCACGGACTCGGACTACAGGAACAAAGCCTACCGCAGGAACGGTATACAGGAGCAGTTCAGGCGAGACGCGGATATGTCACCGCCTTTGAATAACTATGAAAATTTTCTGAATAGAAGAGTCTCGGATTACGATGAGGAGGACCACTCGGTCCCTCAGCCAGATAGCGGCCACTTAGAACTGTCCGAGGCTCGCTTGATAGACGACAAGAGGATCGTCAAGCCGGCGCCGCTACCTGGCCGGTACATCTCACTGGTCGACGACACCAAGGACACGCTGCGGAAACTGTACGTCATACCGCAGAACACCATCGACAAGAAGATAGTACTCATCAAGAACGAACCCACAGACATACAGATAGAACACAAGCCGCAGTCGCAGCAGCTGAACAGCAGCGACCAGGACATGGAGCATCGCAGCACGGACAACGGGGACACTGGTAATAAGCTCAACAACAGCGCCGTTATAGTACATCCAAGTCAACTACTGCCGGTGTTGCCGCCGCCTTCCTCGGCTATTATAGTGTCATCCAGCGGTGTGCCCAGCGTGTTCTCTTGGCAGTCACTGGTGCCTCTGCTAAGAGCGGCGTCTCCCCCGGCAGTGCCGCACTCGCCACGCACGCCACACACGCCACACACGCCCCACACGCCGCACACGCCGCACACGCCACATACACCACACACGCCACACGTCAAGACAGAGGATATCAAGACTGAGAATGAGTTATATGTCATAATGTATTATCTTCGGCAGAAGGAGCGTCGCATCCGCCGGCCGATGAACGCTTTCATGATATTTTCCAAGCGCCACCGCCAGATAGTCCACCAGCTGCACCCCAACCAGGACAACAGGACCGTCAGCAAGATACTGGGAGAGTGGTGGTACTCGCTCAAGCCCGACGAGAAGAAGAAATACAACGAACTGGCCAGCGAGGTGAAAGAGGCTCACTTCAAAGCGCATCCGGAGTGGAAGTGGTGTAATAAGGATCGCCGCAAGTCATCGAGCAGCAGAGATCCTACGGGCTCTACGCCGCAGAGTCCTCGAACTCCATCCGAGGGGCCAAATCCCATGATGGCCAGTGCGGACATGTCTGTGAACTCACAGACATACACACACATCGGCTCGCCGCAGCTCAGCGACGACGAGCCTATGCAAATTAGTCAAACAGTAGAAGAACCGTCGGCGCCGGCGCAGAACATCGAGATCGATCTCAAATGTGGCGAGAAAGTGACGGACTCGGACTCCGAGGGGATCGACGCGAGAGAGTATCTCACGCATCATGACACGAGGCGGCCAAAACCTATTAAAGCTAGGGCGGGATCGTCTGATAATCTGTTGGGTATAACAGCGTCCAGCCCGGGAGGCTTCAAGGTGTTCCAGCCGACGGGAGGAGCGTTTAAATCAACGCATGCTGATAGCGGTGATAACCATAGACAATGGACGGCGTTTACATCGGTAAATAAACCGAACATCAATCAGGATCTGAATTCGCCTCACCCTAACACTCAGAGCCTAACGAACAGCGTTCAGGGTATATCGATAAGCGCTCCGAATCTGTCGACACAGGCGGCCCTAGACAACGCGATCGCATCGATAATAAGTCCCACCACTAGTGGTGTGCAAGTTATATCCAGTGGTATATCGATGCCGCATACTATCTCCCAGTCGCAGGCTCCAACGTCCACCACTACAGCCCTGACGAATACTTTGTTGAAGAGTGTCACATTGGTGAAACGAAATATTGGAGACAATACTGCGGTTCCAATAACCCTGTCAGTTGATACATCCGGCAACATAGTTATAAAGGCGAGTCAAGCGAGCGACTCCCCCGCTACCAGCGACTCTCAGCCTCTACATTACGTACAATTACAGAGACTATATGTGTCATCGGTCAATACTGCAGAATCGGAACCAGCTAAGACACCCGTCTCGAACCCTCAAACCGGTCCATCTGTTATAGTGTCACAAAGTAACAACCACATATCACCCAGTAACGCAACAATGGAACCGATGGAGACCTGGGATACTCCGATGTATGAGGCCCGGCCATTCCCTCTTGCACCCACACCAGCGCAATTGGGACGGGCACCACTACAGAAGAGACTCAGTAGAGGTACGTCAACTGGTTCGACTGGTAGCAACGAGGCTACGATCCCTCGGTCGGAGAGCGGGCCCACCACGCCGTTGGACGTCGGCGAGGTGGGCGTACACTCACCCAAGAAAGAAAACCTGCCCAGTCCATCGCTGAAGAAAAGCCTCTTCAAGAAAGGCAACGAGGATGGAAGGGACAAAGTTCTAGAGACGGTGAACTTCTCAGAGAAGTTCAATACGTTGCCTCAGTTCAAACCGGAAGCGTGCAGTCCCAGTGCGATGGCGGTGCCGCGCTCACCGCAGCTCTACCTTAGAAAGAAACACCACAAAATCAGTATGGAGGAGGATCAGACGGTGGTGACGCCGCAGATTGAAAACGAAATCATGAATGGTAACGGTATGCCGACACCACACTCATACGGAACACCTCACTCTACCACCAAGCTAGTTGGTACCACCTTCTTCGGACCTGACTTCAATCCTGAGAATTTTAGAGTGCCATGTTCGGAGGCTTCAGAGGAGATGTCTCCCCGCACACCCTGTTCGGCTCGCGGCGAGGCTGGTCACCGGCGGGTGTTGGAGCAGAGACGACATCTGGTGATGAAGCTGTTCCACGACCACGGCATGTTCCCCTCCACACAGGCCACTACACACTTCCAGGCTGCTCATGCCGATATCTTCCCCAGCAAGGGCTCCCTGCAGCTGAAGATCCGTGAAGTCCGTCAGAAACTGATGGCTCAGTCCAACCTCACACCGCACTCCGATCTCAACACTCCCACTAATGTGAACTCCCCTATAGTATCGTCATTGCTACCGACCTCTACAGCCAGTTAG

Protein sequence:

>DPOGS208176-PA
MQRQAGGASSAQSPRAVYRTHASHIYDIDDQIPASVISSVGTVSLSQSTTNPTSNTTMASRGNTISNNNTPQTQAPVRNLPKKRKFDPSELEEIERNCVNSIAERNSLNIPTAVTNSMDYTSSYQPIAQPSVVPRSSPHDTKQYIQYPNIDLSEWRDHRVLAKHRGLYLPGVIRQADGCKVTVELDGQDIEPIEYSDLFGVNRYDVISDASPQLSHLPVGSACVFKTTDPARDGGHNVFVEGQVFEVNNSPIRIRVKVIEGDTCKEVVEVKRADIRLRQPPWADELEDAGSHAPAVPHMRQQCVSYSMGDHFATSSPMPGASHVSVGALSAGSRPFDDYGSDDDLPSENIMFPTDASHMDCNNSKRSSLQSRGSTSSLVEGSLTPRSQPPTPRSQAATPHKYKKGDVVSTPTGIRKKFNGKQWRRLCSKNGCGKESQRRGYCSRHLSQGGVNRSSNTPLTQGSTHTPQQRSSSKSLSSNGTGVEGDDTSRESDTTPPNYRVTGRFDQDETEAANMLVSLGSSRSGSPGASPVSGSPVLRGNVFVPISSPQPPLNNPPHKNYHHHLIRPESLRPAIVSPPVGGVATSVIRVSPAPTHHYQVDNRNGQNIQSSQPNMMGLQTTPYNIQSNMPSNLNAPTTMQSSLNFPTIINNLNQKFQTYASSVRPTKIEDSLHNVVVHRMPSNGTDSDYRNKAYRRNGIQEQFRRDADMSPPLNNYENFLNRRVSDYDEEDHSVPQPDSGHLELSEARLIDDKRIVKPAPLPGRYISLVDDTKDTLRKLYVIPQNTIDKKIVLIKNEPTDIQIEHKPQSQQLNSSDQDMEHRSTDNGDTGNKLNNSAVIVHPSQLLPVLPPPSSAIIVSSSGVPSVFSWQSLVPLLRAASPPAVPHSPRTPHTPHTPHTPHTPHTPHTPHTPHVKTEDIKTENELYVIMYYLRQKERRIRRPMNAFMIFSKRHRQIVHQLHPNQDNRTVSKILGEWWYSLKPDEKKKYNELASEVKEAHFKAHPEWKWCNKDRRKSSSSRDPTGSTPQSPRTPSEGPNPMMASADMSVNSQTYTHIGSPQLSDDEPMQISQTVEEPSAPAQNIEIDLKCGEKVTDSDSEGIDAREYLTHHDTRRPKPIKARAGSSDNLLGITASSPGGFKVFQPTGGAFKSTHADSGDNHRQWTAFTSVNKPNINQDLNSPHPNTQSLTNSVQGISISAPNLSTQAALDNAIASIISPTTSGVQVISSGISMPHTISQSQAPTSTTTALTNTLLKSVTLVKRNIGDNTAVPITLSVDTSGNIVIKASQASDSPATSDSQPLHYVQLQRLYVSSVNTAESEPAKTPVSNPQTGPSVIVSQSNNHISPSNATMEPMETWDTPMYEARPFPLAPTPAQLGRAPLQKRLSRGTSTGSTGSNEATIPRSESGPTTPLDVGEVGVHSPKKENLPSPSLKKSLFKKGNEDGRDKVLETVNFSEKFNTLPQFKPEACSPSAMAVPRSPQLYLRKKHHKISMEEDQTVVTPQIENEIMNGNGMPTPHSYGTPHSTTKLVGTTFFGPDFNPENFRVPCSEASEEMSPRTPCSARGEAGHRRVLEQRRHLVMKLFHDHGMFPSTQATTHFQAAHADIFPSKGSLQLKIREVRQKLMAQSNLTPHSDLNTPTNVNSPIVSSLLPTSTAS-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: