MonarchBase - Protein-coding gene

DPOGS208661
Transcript	DPOGS208661-TA	4032 bp
Protein	DPOGS208661-PA	1343 aa
Genomic position	DPSCF300281 + 249917-259125
RNAseq coverage	190x (Rank: top 48%)

Annotation
*Heliconius*	HMEL011744	0.0	70.13%
*Bombyx*	BGIBMGA007759-TA	0.0	60.62%
*Drosophila*	CG9727-PA	3e-54	48.17%
EBI UniRef50	UniRef50_F5HKS9	4e-54	49.28%	AGAP013226-PA n=1 Tax=Anopheles gambiae RepID=F5HKS9_ANOGA
NCBI RefSeq	XP_001954622.1	5e-55	48.62%	GF16654 [Drosophila ananassae]
NCBI nr blastp	gi\|194744279	1e-53	48.62%	GF16654 [Drosophila ananassae]
NCBI nr blastx	gi\|307197642	1e-56	48.12%	Regulatory factor X domain-containing protein 2 [Harpegnathos saltator]

Group
Gene Ontology	GO:0003677	3.4e-25	DNA binding
	GO:0006355	3.4e-25	regulation of transcription, DNA-dependent
KEGG pathway	xtr:395025	1e-31
	K08061 (RFX5)	maps->	Primary immunodeficiency
			Antigen processing and presentation
InterPro domain	[151-225] IPR011991	1.3e-27	Winged helix-turn-helix transcription repressor DNA-binding
	[146-216] IPR003150	3.4e-25	DNA-binding RFX
Orthology group	MCL21988		Insect specific

Nucleotide sequence:

>DPOGS208661-TA
ATGGATAGTTCAACTCCGTTTCAACCTTGGTCTAGTGACGATAATTCAAAGAATGTTAAATCTGAGCGAGAATTAGTAGATGACGCGAAACTTCATCGGGAAAATGTCAATCATCCAAAACATAGGCAAACTGCGTCTTACAATAAAGAAAGTGTCGTCGATCCTAGCGTCGTTCCTGGACCATCGAGTGCCACGGACACCGATGTCCATCCACTCGGCGGTAAGGAGTCAAAAATGGACTCCAGCAAAATAGCTTCCATGCAACAAATAGTCGAGAACACACTCAGTCAAGAGGGCCGTCAAAGAGTGTCACAATTGTTGGAAGCTGTAGAGGGTCTCAGTGGTGCGGAGAGATTGTTACTTTATCTCCGTCTACCAACCGGTGTACCTCCACACGATCCCCTCAAACAGCCAGTCAATCCGCTGGGCTCCAGAGCCGAACTACAGCAGACTGTAACGTGGATACAAACACACTTGGAGGTTGATCCTGACGTTTCGTTGCCAAAACAAGATGTTTACGATGAATACATAGCTCATTGTATGACCAGCAATATGAAACCACTATCGACCGCTGATTTCGGCAAAGTCATGAAGCAGGTGTATCCTAGTGTGCGCCCGCGCCGGTTGGGAACGCGCGGCAATTCAAGATACTGTTACGCTGGTCTCCGGAAGAAAGTTAAACTTGAAGTGCCACAGTTGCCAAATTTGGGTGAATCGACCAAGGAACCAAGTGTGCCTTCAAGAGAAAATGAAAGAATCATTTGTGATTGGGCTGAATCTAAATTGGGCGTTAAGTTCATGAACATATCGGAGTTATCTCGTCACCTGTTAAGCGCGATGCGCGCCCCGCCCGGTCCGACCAGCGCCACACCGCCGCCGCAAACGCATGGATCTGATGAACCACCGGGACCACAGTTAATGAAACAACAGTTAAAAAGAAAGCTACAGACGCAGGGTACGGTGGGTCGACCGAAAAAGAACAAGGGGCAAGAAGTCGCCGGGGAATCGCCGCCGTCCACTTCATACGTAAGCCATCCCACAGTGAAACATGAGAGCGAACTGGTGCCCGAATCGTACGGCTATCAGCCGGCTTACATGCCCGTTTATGACGTACGGCCGGCCTTTCCCTATGCGGCGCCACCTCGTGCTCACCCCCCCCATCCTCTTCCCCCACACCCTCATCCCCCACCACCGCACCCGCCCGCCATCCCAGTACACGATTACCGGCCCGATCCTTACGTCTTCGAACCGCCATATGCACCACGCGACCTTACTCTTCCGGACACGGCCCACAACGTACCGATTAACCTCAGCAGTGATGTTTCCCTCGACCTGTCCACCGAGCGCACAGAGTGGCAACGTCGCCGTCCCCCGGACCCTCCGGCTCCGACCGCCCGTCTTCCGCTGCCTGGGAAGAAGTTAATCTTGGAGACGTATCAGAGCGAGACTCAAGCTAGCTCCCCTCGCTCGTCACAAACTGACACGCGAGCCGTCCACCAGCCGCCAGAAGAATTTCCGCGCACGGAATACTTGCCTAAGAAGATGCGTGCCGCTGAGATACTGGGCGGTAAGTTGGCGGCACCGAGACAGGTCGCCGCTGCGGACGCGTCGACGTCATCATCGACAGGGGCGGAATCGGCACGTTCCGAGGTTGCTTTTTTAAAGGATCCAAAAAACTTAACGAACCGGTCCAAAAGCACCGCCGCGGCGCTGGCCCGGGAGGAACAGGAGGCGGCGAGTCCGACACGGTCGGTGAAGGCTCCGACGCCTAAACACAATCGAACTAAACTGAGAAAGTCGTCACACATGAGAACGAAGGGGTCGTCTCCGGAGAGGAACGAGCACGACCATTCCGCGGCGCCCGATACCTGTTGTGGTATTAATGGCATCAATATTATTACGGGAATGATCTGTGGGGAAAAACATTCTGAGATACTGAACCGTGAACGAGTTATTAGCATCTGTAATATCGATAAACACGATTTAGACGATTATCTCAATGAGGGCAATAGCCAGGAACACGAGGAAGAATTAATGCAATACTTCCATCATCGCGATGGTGACACAGATATACCAGCAAAATCTAATCAGAACGAAAATACGACTTTTTTAGAAACAAGTCAGGACCCACACGACGAACATAGTCAAGGGAAAAGTGAAAAAATATCGCAACTGCGAGAACTATTAGCTAAGAATTTGAAAAGTGGGTCCAATACACAGAATTTATTATTAAATCAAGAAAAACAAACTCCGATTAATAATAATCACGAAACACATGTTAATAAGAGTTCAATATCGGACGGAGCATTTAGGCCACTAAACAACGTTATGGAAATGATAAACGGCTCCAATGGCTCAAACGAAAATGAAAATAATGTAAGGAAAAAATGTGATAATATTCCAAGTGAAAACGGAATTTCCGCTTGTGCCCCAGAGAATTCACACACTCAGGTGATGACAACAGCGACTGGTTCTCATCTTTACAATGGTAACAGTCATACGGAACCACAAAGTCCAACTACTAGAACACAACAATACGATTTCGTACCTATATCCGATGGATGTCATTCTCCTGGGAATTTTAATTCAAAGTCTCCTTTAGGTTTTGGACAACGAGGGCACAGTCCAACTAAAACGAATAAACCTATTATAATGGGTGGTTCCTTGCAAACATCTCCTATTTCACATAGCATGGCAGCAAGTCCTTTTGTCAGTCCAAGAAATACTCCGGTGCCAAGGTCACGCTATTGTTCTAGACCAATACCTAAACACAACAATAGAAAGAGACGTACCATTTTGTCACTCGGTGTAAATGAGACTGGCACTAAACAATTCGCAATACCAAATGATCAGAAATTCCTGCCGAAGTCTTCTTTGGGTGGGCAGAATATAAAATATTGCCAACCAATGTCAGCACCTCCATCGCCCAACCTCCTACCACACTTTAAACAACAAATGATACAAAATTCCGTGATACCAAATGGCACCAGTAATATGTGCTTTGTGTCAAATACGTTTCGAGAGAATGTTAATGGTGAAATGCCACAACCATTATCAGCAGATCCGTTGTCCAGTGAAGTGAGTCAATTTTTTCAGGAGCCTGTAACGGGTTATAGAATAGCTCACGATACATCTTTTAGGTCACAATCGGTACCATTGAAACAGGCAACCATAAACATTGGCTTGTTGAGCTACAACAATACACCAGTCGGTTCCGTCCCACCTACACCAGTACCGAATGAGTTTTGCGATTTTGGTTCTTTAGCTGACACATGTGATATATCTAGGGCAGGACTCAATCCTGAGACTCTAGATAAAATATACGACGCTATTGATAGCAGCAATGACGTACTTAACGGTGGCACGAGTAATAACATATTAAACTCCAGCGACACCCTAACTAACGGTTGTGATCCTTTACCCGAACAACAAATTCTGATAGATGAACAGTTAAGTTCACTTATACCTAGCGGGGAAGAATTGCTCGATAGGAGCTCCCTTATGGCCAGCGGAGAAGACTTACTCGAAAGGGGTGAACAATTCAATGAGTCGTTTCCCAATGACTCGACGGCTTCAGAGAATGTGGAAGAGTTCTTGAAACGTACAAACAGCATAGAATTTGATTTATCTGATTTGGTAACAGAAAAAAATAAATACTACGCATCACGTTCCGTACCAAGTACGCCATTGCCTTATAAGCGAACGGCTTCGAACTTACAAATAGATCCACGGCACGCTAGAGATCTCTTCGCTACCGAAAATTATTCCAGTGTATCGAACGGTATATCTTCAAAATCCGTGCCATCTACACCACAATTAGCGGAAGATCGCAGTGTTTTTAGTTACACCAACAGAGACTTTCTCATTAACGGAAACTCGGTTGACATGTGCTCTAATCAGATTAGGCAACCGGTTGAAAATGACCAAGCCTTGACGTCCCCACTTGACGAAATACTAGGTCCTCTAACGCCAGCCGCAGATCTATTGGCTGACCTCGACAAAATAGATACTGCTCCATATGTTGACCTCTAG

Protein sequence:

>DPOGS208661-PA
MDSSTPFQPWSSDDNSKNVKSERELVDDAKLHRENVNHPKHRQTASYNKESVVDPSVVPGPSSATDTDVHPLGGKESKMDSSKIASMQQIVENTLSQEGRQRVSQLLEAVEGLSGAERLLLYLRLPTGVPPHDPLKQPVNPLGSRAELQQTVTWIQTHLEVDPDVSLPKQDVYDEYIAHCMTSNMKPLSTADFGKVMKQVYPSVRPRRLGTRGNSRYCYAGLRKKVKLEVPQLPNLGESTKEPSVPSRENERIICDWAESKLGVKFMNISELSRHLLSAMRAPPGPTSATPPPQTHGSDEPPGPQLMKQQLKRKLQTQGTVGRPKKNKGQEVAGESPPSTSYVSHPTVKHESELVPESYGYQPAYMPVYDVRPAFPYAAPPRAHPPHPLPPHPHPPPPHPPAIPVHDYRPDPYVFEPPYAPRDLTLPDTAHNVPINLSSDVSLDLSTERTEWQRRRPPDPPAPTARLPLPGKKLILETYQSETQASSPRSSQTDTRAVHQPPEEFPRTEYLPKKMRAAEILGGKLAAPRQVAAADASTSSSTGAESARSEVAFLKDPKNLTNRSKSTAAALAREEQEAASPTRSVKAPTPKHNRTKLRKSSHMRTKGSSPERNEHDHSAAPDTCCGINGINIITGMICGEKHSEILNRERVISICNIDKHDLDDYLNEGNSQEHEEELMQYFHHRDGDTDIPAKSNQNENTTFLETSQDPHDEHSQGKSEKISQLRELLAKNLKSGSNTQNLLLNQEKQTPINNNHETHVNKSSISDGAFRPLNNVMEMINGSNGSNENENNVRKKCDNIPSENGISACAPENSHTQVMTTATGSHLYNGNSHTEPQSPTTRTQQYDFVPISDGCHSPGNFNSKSPLGFGQRGHSPTKTNKPIIMGGSLQTSPISHSMAASPFVSPRNTPVPRSRYCSRPIPKHNNRKRRTILSLGVNETGTKQFAIPNDQKFLPKSSLGGQNIKYCQPMSAPPSPNLLPHFKQQMIQNSVIPNGTSNMCFVSNTFRENVNGEMPQPLSADPLSSEVSQFFQEPVTGYRIAHDTSFRSQSVPLKQATINIGLLSYNNTPVGSVPPTPVPNEFCDFGSLADTCDISRAGLNPETLDKIYDAIDSSNDVLNGGTSNNILNSSDTLTNGCDPLPEQQILIDEQLSSLIPSGEELLDRSSLMASGEDLLERGEQFNESFPNDSTASENVEEFLKRTNSIEFDLSDLVTEKNKYYASRSVPSTPLPYKRTASNLQIDPRHARDLFATENYSSVSNGISSKSVPSTPQLAEDRSVFSYTNRDFLINGNSVDMCSNQIRQPVENDQALTSPLDEILGPLTPAADLLADLDKIDTAPYVDL-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: