MonarchBase - Protein-coding gene

DPOGS214304
Transcript	DPOGS214304-TA	5235 bp
Protein	DPOGS214304-PA	1744 aa
Genomic position	DPSCF300020 - 1080181-1094119
RNAseq coverage	264x (Rank: top 40%)

Annotation
*Heliconius*	HMEL003459	94.59%
*Bombyx*	BGIBMGA004109-TA	91.81%
*Drosophila*	nito-PB	67.23%
EBI UniRef50	UniRef50_G6DTG3	100.00%	RNA recognition motif protein split ends n=5 Tax=Pancrustacea RepID=G6DTG3_DANPL
NCBI RefSeq	XP_001970541.1	67.61%	GG23320 [Drosophila erecta]
NCBI nr blastp	gi\|312370926	66.44%	hypothetical protein AND_22865 [Anopheles darlingi]
NCBI nr blastx	gi\|157131668	77.65%	RNA recognition motif protein split ends [Aedes aegypti]

Group
Gene Ontology	GO:0005488	1.4e-60	binding
	GO:0016849	1.4e-20	phosphorus-oxygen lyase activity
	GO:0009190	1.4e-20	cyclic nucleotide biosynthetic process
	GO:0035556	1.4e-20	intracellular signal transduction
	GO:0003676	1.4e-14	nucleic acid binding
	GO:0000166	4e-13	nucleotide binding
KEGG pathway
InterPro domain	[347-515] IPR016194	1.4e-60	Spen Paralogue and Orthologue SPOC, C-terminal-like
	[360-482] IPR012921	5.6e-27	Spen paralogue and orthologue SPOC, C-terminal
	[589-765] IPR001054	1.4e-20	Adenylyl cyclase class-3/4/guanylyl cyclase
	[70-142] IPR000504	1.4e-14	RNA recognition motif domain
	[57-145] IPR012677	4e-13	Nucleotide-binding, alpha-beta plait
Orthology group	MCL11628		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS214304-TA
ATGCATGAGTATCCCATGGCAGGTCCTCACGGGCCTCCAATGCACCATCGCCCACCCATGCATCATCCACCTCATCCTCATTACATGCCACGCCCTTACATGCCGCGTCCTCATCACCCACCATTTGAAAAAATGGAAAACAAAAAAGACAAGTTCCCTAATTACTTACATCATGTTCAACCAGAAGATGATCCTCTTGCAACAAGAACTTTGTTTGCTGGGAACTTGGAAATAAATATATCAGATGAGGAATTAAGAAGAATCTTTGGTCGTTATGGGATTGTTGAAGATATTGACATTAAAAGGCCTCCTCCAGGCACTGGAAATGCATTTGCATTTGTTCGCTATCAAACATTAGACATGGCTCACCGAGCCAAAGTAGAGCTATCTGGCCAGTATATTGGTAAATTTCAATGTAAAATTGGATATGGCAAAGCTACACCGACTACTCGTGTTTGGGTTGGTGGGCTAGGTCCATGGACATCAGTAGCCCAATTAGAAAGAGAATTTGACAGATTTGGGGCCATAAAGAAAATTGAATATGCTAAAGGTGAACCTCATGCATATATACTGTATGATTCGATAGATGCAGCTCAAGCTGCTGTAAAAGAAATGAGAGGCTTTCCATTAGGTGGACCAGACAGGCGCCTTAGGATTGATTTTGCAGATGTCGGCACTGGGGGACCATACAGACCGAAACCATATGCAGCACCCGTTGAAGAAGGTCGTTCTGAAGGTTATGAAGGATATGAAGGTTCTTGGGAGGATGGTTATAGTTATGGTTCTGGTTATAGAGGTAGGGGCGGCCACCGTGGGCGAGGTCGTGGTATGTATCGTGGAGTGTATCACGGCAGCGCTGATTATAGGGATGAGGAATGGAGGAGAGCACCAGATGCTGAATATGACAGTAGAGCTCGTCGTTCTGGTTCCCGAGAACCTGGCGTTGACAGATCACGTTCCCGTTCTCCACGTCGTCGTTCTCCCGACAGTGATTCTGATGGATCTCCCCGACGTAGCAGTGGCATGCTTGCCTCAGCTAGAACACTCCCTGAGGTTGTTCGTAAAGCTACAACAATCTGGAATGGTGCCCTCATACTCAAGAATTCCTTGTTTCCAACTAAATTCCACCTTACAGATGGAGATTCAGACATAATTGACAGTTTAATGAAAGATGAGGAAGGTAAAAATCAATTGAGGATTACACAAAGGCTTCGTCTGGATCAGCCAAAGTTAGATGATGTACAAAAACGTATTGCTACTTCTAGTTCACACGCTATCTTCCTTGGTGTGGCAGGATCAACGGCTTCCATTACAAATGAAGATGCAAGCATACAGACAAGGCCTATGAGGAATTTAGTTTCCTATTTGAAACAAAAAGAGGCTGCTGGAGTTATATCATTGTTGAATAAAGAAACTGAAGCCACTGGGGTTTTGTACTCTTTCCCTCCCTGTGACTTCTCCACGGAACTGCTCAAGAGAACTTGTCACAACCTGACTGAGGAGAGTTTGAAGGAGGATCATTTAGTTATAGTGGTAGTAAGGGGCGAGGAGGATGCTAAAAAATATGAAGCCTATTTGGCTGCTCTTAAGCAACTTCGAAAGTCTTCGTTCGTAGAGGTTACTCCGAGAGAAAAACACAGAAATCAGGAATCCAAGAAACAAGCGTTGCTAGATGGTATATCAGGTACTTGGAGTACTGTCCAACAGGCGACAAGAATTGCGATCATAGCTTCCCTGGTGCCGGATGAGATTATTTACAGACATTCAGACCATTCCGTTAGAAGTTATGAGACCGCGCTCATGTTTATAGATGTCTCTGGTTTTACCAAGCTATGTGAGACTTATACGAAAACCGGTGGTGGCCCTTCGAGGCTTACCCAAGTTCTTAATTCTTACATTGGTGCTATGGTTCAAGAAATTTTAACGCATAAGGGGGATGTTTTAAAGTTTTCTGGCGACGCCTTTTTATCAATGTGGAAGAAATCTCCCCGATTAAACATGCAAGATGTCGTTCACACCGCTATTGACTGTGGTTTGTTAATTCAAAAAAATTACGGAAGATACATGACTGACGTTGGAGTGGTTCTAAAAGTCAAAGTCGCTATATCCGCCGGTTTGTCCCATTTTTCTATAATCGGTGGTGGTAATATATCCCAAACGCAATACGTAATAGTCGGTCAGCCGGTGTGGGACGTCAAAATGGCGGAATATATGAGTGCAGCTGGTGACGTTTTAACGTCAGCCAGTGCTTGGATGTATGTCAATGAGGCGGAATATTGTACACAGCCATGCGGAGATGGTAGACATACTAAGGTATTGGGTGTTGGCGCTTCTTGGAAAAGAGTAGAGAAACTGCGTTTTTCTCTAGGAATGAATAAAGAACCAGACTGCTTTAGTAACGAAAATTTATCACTTGAAAATTTTACTGTTTCCGGCATTAATTATCGAGAGTATGCACATCGTCCAGCTGTGGTAGCAGCGATGCGTGGTACTTGGTGGCCGGCTCTACGTCAATTCATGGTACCGCCAATATTACGAGCGGTTGACAACGACGAACCTATGGACTTTCTCACCGAAGTCCGCCATGTTGTTGTTGTCTGTATAAATATAATAACAAGAACTGTCACAGAGACTGTACTCATTGAGGTTGTTGATACCGCTTACAAATGCGTCTACAGCGTGACGTCAGAGGCTGGCGGTCTCGTCAACAAAATCTCAATGTTCGACAAGGACATGATGTTGCTTGTAGTTTTCGGCTTAAGAGGACTCAAGCATGAGGACGAAGCCCAAAAGGCACTTCAATGTGCGTCTCAGTTAAAGGAATCCCTTGATGATGTTAATATTATAAACGTTAGCATTGCAGTTACCTCGGGACTAACATATTGCGGCGTTGTCGGTCATGTACTGAGAAGAGAATATACTGTCATAGGATCAGCTGTCAACAAGGCTGCTCGTTTAATGATGGCGTATCCGAATAAAGTGACCTGTGATAAAGAAACTTTTTTAAAGAGCAAAATAAATCAGGAGTGTTTTAAATTGGTGGAGACCAAACCTTTAAAGGGAATATGTAAACCTGGTCCAATATACGAATTCAGTAATCCTAGAAAGACGGAAAGAATTACATACTGCCGTCATCCGATTCTTGGTCGTAACGAGGAACTGCGAAAATACAAGATGACCTTACACAATGCGTTGGACGAACATCCGAAAAGCTTCACCAGATATAGAGACCATAAATTCGGCGTAGCGTTTATTGGACCAAAATTGGTTGGAAAGACACGTCTCATGCAAGAGTGTATAAACATTACTCCGTCGTTTGTTTTGGTTGATCATTTTGTTCTAACAGAGAAAGACAAGCTAAAGTTTGGAATAATACGATTAATAATGAAATCGATTTTCAAATGCGGTGGGAAATTGTTGAGAGAAAATCGCGAGAATAGAATATTGACATCTATTGACATGACGTCATTAGGGCCTCTGGAGATATACGGTATAAACACCGTGTTCGACTGTCGCTTCCCGTTACCCGAAAATTACGCTCCAACGTGCAAATTACTCGATCAATTTAAAGTCAAGGAAGTCATTAAGGAAATATGTAGGGTGAATCTGCCGTCTCTACGCGTTGTAGCGGTCGCTGAAGGTCAATATATCGATGATGATTCCTGGCAAATTATAATTCTTCTTTTGGGGGCTAAACTAATTTTTCTACTAGTCAGCATATCAGAAGAAGAAACACTCTCTGCCACAGCTACAATATGCTTAGCTAACGCTATGATAATCAAACTGCCGCTATCGGGAATCGATCGGTGGTACCACGCGGCGTTGGCCTGCCAGCTTCTGGACGTACAGGCGATACAGTCGGATCTGGAAAAGATCATTGAAAGTGCAAGTGAAGGTTTGCCGGGGTGGATTCAGAACTTTGTCATATCATTAGTTCAGAGAGGTCAATTAACAATGATGACCATGTCTCGATCAGAGGCGCTGGAGATGGGAGCCGTGACACCGTCACCAGCGTTACTTGAGACGGACACCACTAGTACGTCGTTTGAAGATATCGAATGCAGCAAGGATAGCTACTCTTACGTACTTAAACAAGGCTCGGTGGCAGAAAACGAGATGATACAAATGGCGGTGCTGACTGACACGTACGACTTCGAGAACATGAAAGTTGACGTGAAAATGGACGCGCTTATTTTGAAGACATACGATTCCTTAACGCCTTTCGAGAAAATGCTATTGAAATGTGGCTCAGTGCTGGGCGAAGTGTTCTCGCGCTGCATGCTTTTACACTTGCTGCAGAGCGATTCCCCTCGGAGAGTAGCTCAAGCTCATTGTCAAGATCTTCCATCGTACGCGTTCTGTGGGTACATGAAATTTAGACACAACATGTTTAGGACAACCACGTATGAATTGTTGACTGAGAGTCAGAAGGGGTTAATACATGAGAGCAAGGAACTAAACCAGATCCGCGAGCAGATTTGTGCATTGAGCACCGAGACTAAGATGACGAGTGATAATAGCGCGGTTGATGCATTTTCCCAGTACCAGATGTCAATCAGAAGCGAATCAAATATTCGTGCGTTACTAGATTCTGAGGATTTAAGGCGCTTGAGTCGCTCGATGCAAATGTATCGTAAAGATAAGCGTATAAGATCCTTCTCGTCTCTTGAGCTGAGTATTTGTGAATGTTTGCCGATACTTCTCTCGGCTTATTCACAGGCTATAGAACATTGTCACGGCGCAGATGATTCTGAAAAATTATTCGAAGCCTATTTAGAGTACGCCGACTTGAGCATAATCAACATGAACATACCGCAGGCTGTTCACTTACTCTCTAAAGTAGAGGAGTTCGTTTTGAGTGATGCGAGTTCTAAGAAAAACGAGTTCAAATGGGTCAAAGATTTCAAACTGGGTCGCATACATTCGTTGCGCGGCGCTTGTTTGCTCGAGTGTGGTGACTTAGATCAAGCGAGGAAGGAATTGTTACAGGCTATGCGGCTGTTCTGTGATCCCTTCCCGAGTTCCAAAAACGCGGTGCGGTTCAGAAATTTGAGGGCCTCGTTCAGTCAGATAATGGCACTGTTCATAGTACCTCAGATGTATGTGGCGACTACCAGCGGTTTTGTTGGGGATTTTTACGAAGCTATCGCCTGGACGCTCAACAGGTTGTACAGGTTATTCAATGTAAGTGATGTACAGCATATTCTGCGTATTAATTTAAGGAATAAACGTTAA

Protein sequence:

>DPOGS214304-PA
MHEYPMAGPHGPPMHHRPPMHHPPHPHYMPRPYMPRPHHPPFEKMENKKDKFPNYLHHVQPEDDPLATRTLFAGNLEINISDEELRRIFGRYGIVEDIDIKRPPPGTGNAFAFVRYQTLDMAHRAKVELSGQYIGKFQCKIGYGKATPTTRVWVGGLGPWTSVAQLEREFDRFGAIKKIEYAKGEPHAYILYDSIDAAQAAVKEMRGFPLGGPDRRLRIDFADVGTGGPYRPKPYAAPVEEGRSEGYEGYEGSWEDGYSYGSGYRGRGGHRGRGRGMYRGVYHGSADYRDEEWRRAPDAEYDSRARRSGSREPGVDRSRSRSPRRRSPDSDSDGSPRRSSGMLASARTLPEVVRKATTIWNGALILKNSLFPTKFHLTDGDSDIIDSLMKDEEGKNQLRITQRLRLDQPKLDDVQKRIATSSSHAIFLGVAGSTASITNEDASIQTRPMRNLVSYLKQKEAAGVISLLNKETEATGVLYSFPPCDFSTELLKRTCHNLTEESLKEDHLVIVVVRGEEDAKKYEAYLAALKQLRKSSFVEVTPREKHRNQESKKQALLDGISGTWSTVQQATRIAIIASLVPDEIIYRHSDHSVRSYETALMFIDVSGFTKLCETYTKTGGGPSRLTQVLNSYIGAMVQEILTHKGDVLKFSGDAFLSMWKKSPRLNMQDVVHTAIDCGLLIQKNYGRYMTDVGVVLKVKVAISAGLSHFSIIGGGNISQTQYVIVGQPVWDVKMAEYMSAAGDVLTSASAWMYVNEAEYCTQPCGDGRHTKVLGVGASWKRVEKLRFSLGMNKEPDCFSNENLSLENFTVSGINYREYAHRPAVVAAMRGTWWPALRQFMVPPILRAVDNDEPMDFLTEVRHVVVVCINIITRTVTETVLIEVVDTAYKCVYSVTSEAGGLVNKISMFDKDMMLLVVFGLRGLKHEDEAQKALQCASQLKESLDDVNIINVSIAVTSGLTYCGVVGHVLRREYTVIGSAVNKAARLMMAYPNKVTCDKETFLKSKINQECFKLVETKPLKGICKPGPIYEFSNPRKTERITYCRHPILGRNEELRKYKMTLHNALDEHPKSFTRYRDHKFGVAFIGPKLVGKTRLMQECINITPSFVLVDHFVLTEKDKLKFGIIRLIMKSIFKCGGKLLRENRENRILTSIDMTSLGPLEIYGINTVFDCRFPLPENYAPTCKLLDQFKVKEVIKEICRVNLPSLRVVAVAEGQYIDDDSWQIIILLLGAKLIFLLVSISEEETLSATATICLANAMIIKLPLSGIDRWYHAALACQLLDVQAIQSDLEKIIESASEGLPGWIQNFVISLVQRGQLTMMTMSRSEALEMGAVTPSPALLETDTTSTSFEDIECSKDSYSYVLKQGSVAENEMIQMAVLTDTYDFENMKVDVKMDALILKTYDSLTPFEKMLLKCGSVLGEVFSRCMLLHLLQSDSPRRVAQAHCQDLPSYAFCGYMKFRHNMFRTTTYELLTESQKGLIHESKELNQIREQICALSTETKMTSDNSAVDAFSQYQMSIRSESNIRALLDSEDLRRLSRSMQMYRKDKRIRSFSSLELSICECLPILLSAYSQAIEHCHGADDSEKLFEAYLEYADLSIINMNIPQAVHLLSKVEEFVLSDASSKKNEFKWVKDFKLGRIHSLRGACLLECGDLDQARKELLQAMRLFCDPFPSSKNAVRFRNLRASFSQIMALFIVPQMYVATTSGFVGDFYEAIAWTLNRLYRLFNVSDVQHILRINLRNKR-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: