MonarchBase - Protein-coding gene

DPOGS210359
Transcript	DPOGS210359-TA	3369 bp
Protein	DPOGS210359-PA	1122 aa
Genomic position	DPSCF300025 + 383112-389224
RNAseq coverage	422x (Rank: top 29%)

Annotation
*Heliconius*	HMEL007256	0.0	61.81%
*Bombyx*	BGIBMGA011917-TA	0.0	57.18%
*Drosophila*	CG4557-PA	3e-49	41.36%
EBI UniRef50	UniRef50_D6WF84	2e-141	35.59%	Putative uncharacterized protein n=1 Tax=Tribolium castaneum RepID=D6WF84_TRICA
NCBI RefSeq	XP_969463.1	3e-142	35.59%	PREDICTED: similar to CG4557 CG4557-PA [Tribolium castaneum]
NCBI nr blastp	gi\|91078510	7e-141	35.59%	PREDICTED: similar to CG4557 CG4557-PA [Tribolium castaneum]
NCBI nr blastx	gi\|91078510	7e-158	35.28%	PREDICTED: similar to CG4557 CG4557-PA [Tribolium castaneum]

Group
KEGG pathway
InterPro domain	[652-725] IPR022092	6.5e-19	TATA element modulatory factor 1 DNA binding
	[1053-1112] IPR022091	1e-11	TATA element modulatory factor 1 TATA binding
Orthology group	MCL12318		Single-copy universal gene

Nucleotide sequence:

>DPOGS210359-TA
ATGAATTGGTTCGATGCATCGGGGCTAACAAGTTTAGCCAAATCAGCTTTAAAGGAGGCCCAGAAAACTATCGATAAGGCTCTCGACATTGATGATGACAGCAGCGAGGATCAAGAAGAGCCAACTGGGACATCTACTTCTAAGTCAACACCTACCAGAAGTATGAATGAAAAAGATAATTCAGACTTCTTTTCTTCTTGGGGCTTAACGGTGAGTGCGGAAAGTGAGAGAGAAAATCCAATACAGGAACAGCCCGTCGTCACAATGAGTCCATCTAAATCTAATTCCCAAAGTTTATGGGGATCCTTTGCTGGTTCCTTTTTTGAGCAAACAAAATCTGAAAGTGAGACAATAGTCCGACCACCCAAGGCAAAGTCTATGAACCTTATTTCAGATAAATATGACAGCCAAGACGATTTGTTTTCTTCTAGTCAGTTAGTGATGTCGGATGGTGGAGAAAGTGGGAATGTAAAGAAAGAAGTTCCTAAATCAGAGGACCGTCGTGACTCAACTATGTCAAATGTTTTGTCATTTATGTCCAGCAGAAATAGCTCTGATTCAGTGGAGGTTCTGTCACAAAGTTTGAAGTCATCACCAGAGTCAGAAGCAGCTTCTTGTCATACAATCTCCAATTCCCACAGCAGTAGCGTTGGTGTTAAGCATAATTCTGAATCAGTTGAAATATTACCTGACAGCCTTGTGAGTCCCAGCTCTATAGAGTGCTTAGGCTTTGACAGTTATGCAAGTGACAAAAACAGCAGCAATTCTTCTAATCTGTCTCCAGGCAAGACATCAGACAAGAAGTCTACACCGGTCGGAGAAAGAACTGAGAGGGCTGAAACTGCAGACAGTGTGAGTTTGGTAGCAGATGACGATGAGGATACCATGTCTTATAACTCAATTTCTGAATGCACGGCCCCCACAGTCCTCGATACCGATGACAACTCCATGAATCCTTTTTCAAAACTTGCCAGATCCGAATTTAAAAAAACGAATGAAAGGGATCTCGTTTATTTAGAGCAGCCTCTGGCATCCCATAAGATGCAATTAAGTGAAAACTCTTCTAATGACGGCTCTTGGTCAGACAGAACCCTAAATGCTGATAATGAAAGTGTTATCTTAGAAAAATCTATAGAAGAGCAGAAAAAATATAGCCAGGAGGATGTTCTAATAGATAAACTAAGTGATTCATCTTCATTTTATAATGTCAACGTCACCAGTGATTTATTGCAGTCTGAGAGTTCTGCTTTTGTGAATGTAGAGAAACAACAATGTAGTCACTCTACTAGTAATGATTCATCCCAGAGAGATACCAGTGTGAAGGAGAGGACCTCTCCTGTGAGTTCCGACAGCAAAAGTGATCTGGTCAAGATTGGTTCCGACCAAACCTCGGGTCATACCTCTGGTGATGAACTGGAGACTGCCACATCTTCTGACATAGAAATCATTCCGAGCCCAAACGGCGAAAGCAGCAACGGCTGCAGAAATAGTCCAGGAAAATATGGCTTCAAAGCAAAAGTAGACGGGGCCACTTCACCCAATCTTGTAGATTTAGTTTTAGGAAAGAGCCTGGCTTCTAAGATACGCGGACATAATAGAGAATTGTCAGAAGCCTCGATACAGAGCAACACCAGTGACGATAGCCAGGGTTCAGATAATGATAAACTGATGCGAAGGTTGTGTGAGATGACCGAGATCTTAGATGCGAGAGAATCGAGGTTGATGGAGGTCAGCCGGAATAACGCGGAGCTGGCCGAATGTAACGCCAGCCTCAAGAGTCAGATCGAAAGTTTACTGAACAAGCATGACGGAGGAGACATCAACACGATCACAGAGGACTACACTCAGAGGATGTCCGCTCTGGAAAAGAAGTTCCAGCAGGCTATCAGGGAGAAGGATCAATTGAGGAAGCAGTTAGACACCTTGAAATCGGACACGACACGCAAGAACTCGTCGGAGCTGGAGAACACTATAAAGGAGAAGGACGAGATGATCTCCCAGCTCCAGGAGGAGGGAGAGAAGCTGGCGAGGCACGAGCTGCAGCACACCAACATCATCAAGAAACTACGCGCTAAGGAAAAAGACAACGAACAGGTCATAAAGGGATTGAGAGACAAGATAGCTGATCAGACGAGTGAACTGGAGCGAATGAAGAGGTGTCTGTCAGCCAAGGAGGAGCTGGAGGTCAACCAGATAGAGGCCGTGTACAGGCTCACGGCCACTAACAAGACTCTGGAGGCCGAGCTGGCAGAGACAAAGAGCTCGCTGGACGACACGACTCAGAGGCTTGCGACGAGCCGCGCGTCTCTGGAGGCGGCGCGGCGGGAGCTGGCCGAGCTGCAGAGAGGAGGGGCAGAGACGACCAGGCTCAGGGACGAGCTGCAGCACGCTCGGGAGGAAGCCCGCCTCGCCCGGGAACACGCGGCCGCCCTGCTAGAGGAGACGAGGCTGCTCAGGACTGAGAGACGAGCCGGAGCAGCGCTGGGCGGCACGCGAGGAAGCTCTGCGGCGCGAGGTGCGAGCCGCCGCGGAGGACTCTACCGGACCGCGCTCGACGCTAGGCTCGCGGAGGCAGAGACGACGGCCGCCAAGGCCAAGGAGAGGGAGAGACTGCTGAGAGAAGACAACACCTCCCTGGCGGAGACACTGGCGGAGGAAAGGAGCCGGGGGGAGGAGCGGGAGGAGAGGAGCAGGGCGCTGGAGCAAGAGCTGCGGGAGGCCAGGGGCACGATACACACGCTCACATGCGACCTGGACAGAAAAACAACGGAGCTAGAACAGATCCGGGTAGAAAGTGAGAGGCAGATAGAGGAACTGAGGACGAGAGTGAGCGAGACGGAACACTCGCTGGCCGAGGAAAAGGCGGCCCTGGACACTGAGAGGAGGAGGAACGCCATACTGCAGGTACGGGGAGCCAGTGAGGGCAGCGGGGATGGGACTCGTACCACTTATGTAAATGAGCAAACGGAGCAAGTGTCCAGTCGCGGCGACGTGTCCCCGGCGCGCTCCGTCACTTCCGACCTCGGCTCCACTTCGTTTTGGACTGAGGAGGCGGCGGGGAGCAGCGCGCTGGCCGTGGAGCAGGCGCTGAGTCAGATGACGCGCCAGTGGGGCTCCCGCCGCGGCCGAGACGACGTGCTGGCCCGCCTGGCCGCCGAGCGCGCGGCGCTGGCCGGGGAGCTGGCGGCCTTGCGGGCGCGCCTCGCGGACCACGAGCACGCGCGCTACGACGAGCTGCTGCAGATGTACGGCGAGAAGGAGGAGCAGCTGCACGAGCTGCGGCTCGACCTCCACGACGTCACGCAGCTCTACAAGCAACAGCTGGACGAGCTGCTGCTGCTCAGGAGACGCCTCGACGAGCGCACCTGA

Protein sequence:

>DPOGS210359-PA
MNWFDASGLTSLAKSALKEAQKTIDKALDIDDDSSEDQEEPTGTSTSKSTPTRSMNEKDNSDFFSSWGLTVSAESERENPIQEQPVVTMSPSKSNSQSLWGSFAGSFFEQTKSESETIVRPPKAKSMNLISDKYDSQDDLFSSSQLVMSDGGESGNVKKEVPKSEDRRDSTMSNVLSFMSSRNSSDSVEVLSQSLKSSPESEAASCHTISNSHSSSVGVKHNSESVEILPDSLVSPSSIECLGFDSYASDKNSSNSSNLSPGKTSDKKSTPVGERTERAETADSVSLVADDDEDTMSYNSISECTAPTVLDTDDNSMNPFSKLARSEFKKTNERDLVYLEQPLASHKMQLSENSSNDGSWSDRTLNADNESVILEKSIEEQKKYSQEDVLIDKLSDSSSFYNVNVTSDLLQSESSAFVNVEKQQCSHSTSNDSSQRDTSVKERTSPVSSDSKSDLVKIGSDQTSGHTSGDELETATSSDIEIIPSPNGESSNGCRNSPGKYGFKAKVDGATSPNLVDLVLGKSLASKIRGHNRELSEASIQSNTSDDSQGSDNDKLMRRLCEMTEILDARESRLMEVSRNNAELAECNASLKSQIESLLNKHDGGDINTITEDYTQRMSALEKKFQQAIREKDQLRKQLDTLKSDTTRKNSSELENTIKEKDEMISQLQEEGEKLARHELQHTNIIKKLRAKEKDNEQVIKGLRDKIADQTSELERMKRCLSAKEELEVNQIEAVYRLTATNKTLEAELAETKSSLDDTTQRLATSRASLEAARRELAELQRGGAETTRLRDELQHAREEARLAREHAAALLEETRLLRTERRAGAALGGTRGSSAARGASRRGGLYRTALDARLAEAETTAAKAKERERLLREDNTSLAETLAEERSRGEEREERSRALEQELREARGTIHTLTCDLDRKTTELEQIRVESERQIEELRTRVSETEHSLAEEKAALDTERRRNAILQVRGASEGSGDGTRTTYVNEQTEQVSSRGDVSPARSVTSDLGSTSFWTEEAAGSSALAVEQALSQMTRQWGSRRGRDDVLARLAAERAALAGELAALRARLADHEHARYDELLQMYGEKEEQLHELRLDLHDVTQLYKQQLDELLLLRRRLDERT-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: