MonarchBase - Protein-coding gene

DPGLEAN08317 in OGS1.0

New model in OGS2.0	DPOGS200642
Genomic Position	scaffold168:+ 126737-137290
	See gene structure
CDS Length	3294
Paired RNAseq reads	911
Single RNAseq reads	2725
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA011319 (9e-31)
Best Drosophila hit	deflated (1e-78)
Best Human hit	integrator complex subunit 7 isoform 1 (1e-92)
Best NR hit (blastp)	unnamed protein product [Heliconius melpomene] (0.0)
Best NR hit (blastx)	unnamed protein product [Heliconius melpomene] (0.0)
GeneOntology terms	GO:0032039 integrator complex GO:0016180 snRNA processing GO:0005515 protein binding GO:0005634 nucleus
InterPro families	IPR016024 Armadillo-type fold IPR011989 Armadillo-like helical
Orthology group	MCL11513

Nucleotide sequence:

ATGATCGGAGTAAGATTAAACTCATTCAGCGATAATTCAGGGGAACCTGAACAGGACGCT
AATTCTGCTTTAACAGAGTTGGATAAAGGTCTAAGGTCTGGTAAAGTCGGAGAACAATGT
GAAGCTATAGTCCGTTTTCCTCGTTTATTTGAAAAGTACCCGTTTCCTATATTAATTAAT
TCATCATTTTTAAAATTGGCGGACGTGTTTCGTATGGGTAACAACTTTTTACGGCTCTGG
GTTTTACGCGTGTGTCAACAGAGCGAGAAGCATTTGGATAAGATATTAAATGTGGATGAG
TTTTTGAGGCGGGTTTACAGCGTGTTGCATTCAAATGACCCTGTGGCGCGAGCGTTGGCG
CTGAGAACTTTGGGTGCCGTGGCAGGAATAATTCCCGAGCGTCAGAACGTCCATCATGCA
ATCCGCAGAGGTCTAGAGAGCCACGATAATGTAGAAGTCGATGCCGCTATTTATGCTACT
ACTAGATTTGCTGCACATTCAAATTCATTCGCAGTGGCCATGTGCAATAAGCTGTCGGAC
ATGGTCGAGTGCGAGAGTACGGGGGTTGAGCGGAGAGCAAAACTCGTCAGGGCCTTACGG
ACAGTACATGGCGGAGCGGTTCGTGCTCAAGGTGTCCTGAAGCTGCTAAGGTCCCTGCTG
GAGAGATTCCCTTCATCCAGCTCAGTCCGAGCTGCAATCACAGCTCTCACTGCCATCGCT
GCGGATACAGTAGTGCATGTACCCGATCAGGTGGAGCTTCTGCTTAAACTGGCGGTTAAC
GACGCTCGGTCAGCTGTTCGCCGCGCTGCGCTAGTGGGTCTTCGTAAACTGGCTGAGCAT
GCTGCGCTATGGCCCACTGACTGTATCCAAGACCTGGTGCACGCGGCTTCAGAGATGCAG
GACGATGAGCATAGCATGCTCTGCCTACAGGTCATGCAGATCCTGGTCCGTTGCCCGGCG
GTGTGCGCGGCGGCCGGGCCCGAGGCGTCTCTCCGGCGCCACTGCAGCGCTGCAGCGCTC
AGCGTCAACATGAAGCTAGCTGCAATCGCTGCAGACGTACTCACAAGAATCGTAGCCCAC
TGCTACGAGGAGAATCTCCCGGTCGAAGGTTCGGAGCTGATGCTGGCCCTGGAGTCGCTG
GTGATCGCCACCGGCATGGACAACGGACAGAATAATATACGACCCCTGCGGATAGCGCTC
AGATGTCTGGTACAATTGAGTTCCTCCGCCCCTCACCTGTACGCGAGTCGAACCGCTGGT
GTTTTGGGGTCCGCCGCCCAGAGCTCCGTGGGTCCGCGACAGGCTGCACTACTCGAAGGC
CTGGCTGCGCTCGGGGCCCTAGGGGCCTCCGCCGCACCCTATCTCATACCAGCCCTAGAG
AGAGCCAAGGAGGACTGCAAGGACCCGACCTACGACGGCACCACTCTAGTGCTGATCTGC
ACGGTGCTGCTGCAGGAGAGGGCGGTGGCAGCGCTGCGGTACAGGATCCGGGGCTCGTGG
GAGGAGAGGATCAAGGATGCCGTGAGGGGAGCCGACGGCTGGACCAGATACAGGGTCGCC
AGGACCGCGCTCAGGTACGGCCACCACCGCCTGGCGGGGGAGCTCCTGGAACAGCTGGCT
ACTCAAGCGCCGTCCGAGGCGGCGCAGCGCTGGCTCACAGCACTACACCGAGCGGCCGCA
GCTGATAGGCTGCTGGAAGATGAAGTTATTCCATGTCGTTTTTATTACGACACCGATCCC
CTCGGCTCCTCGAGCTCGCCGTCCTGCAAGCCACATCATGTTTTAAAGTCCGCGCCGCTT
TCCTTTGACGTTAATTTGTGCATAACACTCGGCCACCGACAGGTGTCTCGGCGCTGGAGG
AGGCGAGCAGAACAGATCAAACCCTGGGCACCTCCCTATAGATACTCTCGCACGAACTCC
CAAATACTTAACTTGAGCCAAATGTTGCAGCAAATAGGTGCGCTACTCGCCTGTATATCG
TTACTATACTTAGTCAAAGATTTTATTATTTCTATGGGTCATGCTAGCGACACCTTCCGT
GCACCGTTTGTCACCTTCCACCACAGCAATATCACACGGAAGCAAGGATTGAGGGCAAAG
AAGACGAAGGAGGAGTCGGATAAGGGTCAGAGAGAGTCCGGAAACGAGAAGGAGGGCGAG
GGTCAGGAGTTACCCCTCTACTGTCAGAGCGTCTACACCTACCCCCACACGGACTATATC
AATTTCCAGCCGATGCCTGTTGAAGTAAAAGCACTTCCCCTGATGGTGGACTGCCGGCCG
GCGGGCGCTCCGCCCCACGACATGCCCCACAATAACGGGACCGGCGATAACAGCCATCAG
GTAACAACAGAGACCTCATCGTTATTGTATATGATGCAGCCACCCCGGCCGGAGCCGAGG
CCCCGGACACTAATGATGGCTCATTCGGCGACTGAGTACAGCTCGCTTTGTGTCCCAACT
CCCGAGCATTTAGTCGTATACTTTTCTGTCAGAGAAGTGTTCTCTGTGTCCGTTGTGGGT
ATTCAGTACAATATGGAACAACAGGCTCCCAGTGGCGAGCTGGTGTCGCACGCCCGCGCC
TCCACTCCCGCCGCGCCCACCTACCAGCACGCCTACAACGGTGAGACGAACATATACAAT
ATAAATGAGAAGCGGACCGGCTTCTTGTGCATAATGTTCTGCGACCCAGCACGGGTGGTG
TCCTCCGAGATAGCTATATTCAATCAGTCAGTACCCGGAGGCGGTCCGTGTCCACACGCG
GAGGCCGTGGTGGCCGGGGTCCGAGCTCTGTGTCGGGGGATCGTGTGGCCGCGGGCGGTC
TGTGCGGGCGGGGCGGGCGGGGCGCCCTGCCGCGTGTCGCTGTCCCCTGCGCCGCGAGCG
CCCCCCGCCGACCACGCCGCCGCCCTCCCCCTGGCGCACCGCCTGGCCGTTAAGCTGGAG
GGCGTTCTGCTGCCGCCGCCGGGCAAGATGAAGAACAAGCGGCAAGTTAAAGGAGTCCAG
ATCACTGTGACCGCGACTCCACATCCGCGGACCAACGAGAAGACGGTGGAGCTGACGAAC
GTACAGCCGACGCTGACGGCCGTGCAGACGGTGACGCCCGTGAGGGACTTCTTCTCCGCC
CAGCAGCTGGTGAGCGTCCCGGCTCCCGGACTGTACACGGTCGCCGTGGAGGCGGCCTTC
GTGGACGAGAAGGGCCAGCTGTGGCACACCGGGCCCAGGAGCTGCATCGTCATCAAGGCG
CACGAGGACCCCGGCACCAAGGGGAACTCGCAGACCTCGAGGAGCAGGTTTTGA

Protein sequence:

MIGVRLNSFSDNSGEPEQDANSALTELDKGLRSGKVGEQCEAIVRFPRLFEKYPFPILIN
SSFLKLADVFRMGNNFLRLWVLRVCQQSEKHLDKILNVDEFLRRVYSVLHSNDPVARALA
LRTLGAVAGIIPERQNVHHAIRRGLESHDNVEVDAAIYATTRFAAHSNSFAVAMCNKLSD
MVECESTGVERRAKLVRALRTVHGGAVRAQGVLKLLRSLLERFPSSSSVRAAITALTAIA
ADTVVHVPDQVELLLKLAVNDARSAVRRAALVGLRKLAEHAALWPTDCIQDLVHAASEMQ
DDEHSMLCLQVMQILVRCPAVCAAAGPEASLRRHCSAAALSVNMKLAAIAADVLTRIVAH
CYEENLPVEGSELMLALESLVIATGMDNGQNNIRPLRIALRCLVQLSSSAPHLYASRTAG
VLGSAAQSSVGPRQAALLEGLAALGALGASAAPYLIPALERAKEDCKDPTYDGTTLVLIC
TVLLQERAVAALRYRIRGSWEERIKDAVRGADGWTRYRVARTALRYGHHRLAGELLEQLA
TQAPSEAAQRWLTALHRAAAADRLLEDEVIPCRFYYDTDPLGSSSSPSCKPHHVLKSAPL
SFDVNLCITLGHRQVSRRWRRRAEQIKPWAPPYRYSRTNSQILNLSQMLQQIGALLACIS
LLYLVKDFIISMGHASDTFRAPFVTFHHSNITRKQGLRAKKTKEESDKGQRESGNEKEGE
GQELPLYCQSVYTYPHTDYINFQPMPVEVKALPLMVDCRPAGAPPHDMPHNNGTGDNSHQ
VTTETSSLLYMMQPPRPEPRPRTLMMAHSATEYSSLCVPTPEHLVVYFSVREVFSVSVVG
IQYNMEQQAPSGELVSHARASTPAAPTYQHAYNGETNIYNINEKRTGFLCIMFCDPARVV
SSEIAIFNQSVPGGGPCPHAEAVVAGVRALCRGIVWPRAVCAGGAGGAPCRVSLSPAPRA
PPADHAAALPLAHRLAVKLEGVLLPPPGKMKNKRQVKGVQITVTATPHPRTNEKTVELTN
VQPTLTAVQTVTPVRDFFSAQQLVSVPAPGLYTVAVEAAFVDEKGQLWHTGPRSCIVIKA
HEDPGTKGNSQTSRSRF