MonarchBase - Protein-coding gene

DPGLEAN16534 in OGS1.0

New model in OGS2.0	DPOGS214760
Genomic Position	scaffold43:+ 20162-27184
	See gene structure
CDS Length	3522
Paired RNAseq reads	2788
Single RNAseq reads	6836
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA004754 (5e-69)
Best Drosophila hit	Nup133 (1e-41)
Best Human hit	nuclear pore complex protein Nup133 (2e-22)
Best NR hit (blastp)	hypothetical protein TcasGA2_TC008819 [Tribolium castaneum] (3e-123)
Best NR hit (blastx)	PREDICTED: similar to conserved hypothetical protein [Nasonia vitripennis] (5e-93)
GeneOntology terms	GO:0005515 protein binding
InterPro families	IPR007187 Nucleoporin, Nup133/Nup155-like, C-terminal IPR015943 WD40/YVTN repeat-like-containing domain
Orthology group	MCL12358

Nucleotide sequence:

ATGGAGTTTAACAGCACAGGAGGAATGAGGAGTCCTTTTTCTCCTCGAGTACGACAATCT
ATCTCGGGGCGAAGACCTATTGGACTGGGTTCGGCAAAGAAAAATAGCAAGTTCATGCAA
CAGTCAGAGCAACAAACCGGCGAAATTGTATATAAAACTCCCTTCACGACTCTGGAAACA
TTCGGAACACCACTTCCAGTAATGGTTACAGAAACTCTTACCTTTCCATCTAGTGAGGTA
AGTGTCCGTCTGTCCTCCTGTGGTTGGTGTTGGGCGGTCTGTGGGCGTAAAGTGCTAGCG
TGGCCCTGGGACACCTCACTCCCTGCTGCCACCGCTCGTGATCTCACACTGCCACAGACA
GACCTGGCACACAAAGCTGATTTAGTTGTTCTGTTCTACGAGAATGATGCACAGTTGCCA
TCCTGTATTGGTGTGTCTCCGGAGGGGGTGGTCCGCTACTGGTCCAGTGTAGGGGCGGAG
GGCGCGTCGTGTGACGTGTCGTGTGAGCTCGCTGGCCAAGAGTGTGACAGGCTCATACAG
GCCAGGGATGGACTGCTGCTGGCCACCACCACCTGCACCCTGGTCAGAATCACTACTACT
AAGGAGGCTCGTCCGTCCGTGGTGTGTCACACTCTCCGTCCCCCGAGCGGCTGGCTGGGA
GGTCTGGGCCGACGAGTGTCAGTACTGTTCTTCGGTTCCATGCCGGCTAACCATGACACG
AAACTGGTGAAGGTGGTGTTGCTGAGCAGTCCTCGTGCGGACGAGCAGGCAGCGGACAAG
GAGTGCGTGGCGCTGGTGGCCGGCGGACCGCTCGTGCAGTTGTGGGAGGATGGCGACGTC
AGGGAGGTCTCGCTTCGGAGACCGCTCTGTGACGCGCTGGCCAGGACGCACCTCGCGCCC
GCCGGTGAGCTGAGCGGGCTGGAGGTAGCGGCGCTGGACGCGGAGCCTCACCCCGGTGGC
GGCCTGCTGCTGCTGCTGCTGCTGACCGTGGCCGCGCCTCGCGCTCCCGATGCTAGATAT
GCCCTCGCTCACGTATCCTTGGAGTCCGAGGAGCGTGTCCGCGTGTTGTCGGCGTGGTGT
GTGAGGGGCGCACGCTCCGAGAGCCTCCCCCGCTGCCTGCCGCTGCAACCCCCGCTGGTC
TACAACAGCGACGCAATCATCGGAGTCGCTCGTACGGATCACTCTACACTCAGCCTTAGC
CCGGGTTTACACCGTCACACGACTTGCCGAGCTTTTATAATTGGTCATTCAAAAACCTTC
GCCGAGACTTTCGTGAGCGAAGCGTCGGGCAAGGATCAGGCGGACGTGTTGGAAGTGTCT
GCGGAGGGCGACTCCATCCTGGGAGCGTCCCAGGTGGGGGGCCGAGCCCTAGTGTTCACG
AGACGACACGGGGTGCTGCTGCTACGGACCGCCGACCCCGCGGCTCAACATCATGCACCG
TCGCTGTGCGACAGTCCTCTCGGCTCCCCGTGTCCCTCGGACGTGTTCGACGGGAACTTG
ACGCTGTACGAGATCGACCCGAACGAGGTGGTGGCCATAAGCGGTGACGCGGTGGGCAAG
TTGAAGAGTGCGTTCCTGTACCACGTCCGCGGCCAGCAGGCCTCCGCCGCTGCCCTGTTG
TCGGAGCTGGCCGGGAGACTCGACCCCTCCGCCACGGACCGGCCTCTGGATCGGACCGTG
GTCACCGTTACCCGGGAAATGCTGGACGACGCGCCGGCCGGGGACCCCAGGTGGAAGCTC
CCCAGTGGCGCGGCGACCCGCGTGTCCCTGGGCAGCTCGTGCTCGCTACAGGCGGCCGCC
CAGCTCCACGACAAACAGAAGGTCTATAACATGTTCCTGGATTTCCTGAGGAGCCGCGGA
CTGTGGAGGCGCCTGGGGACCGTCACCGGGGAGAACGGCGAGGGCGTGTCCAGCACGCAG
CACGAGGTGTGCGCGCTAGGAGAGCGGCTGGCGGCGGCCCGCGCGTTGCAGAGGCTGCAC
CAGGCGGGTGCTCCCCTTGTGGACGCGGCGCTGCACCAAGTGGCGGCTGGACTGGAGCGC
GCGCCCGGCCATGAGGACGAGGCCGTGTTGGAGGCACTCCGAGGCGGCGCACTATCCGCG
GCCGACGTGTGCTGGCGGCGCGTGTCGCGAGTGCTGCGCGTGCTGACTGCGCTGTGTTCC
CTGCCGCCGCCGCCGCACGACGCTCGCGCCGCCGCCTCGCACGCGCACCACGCGCTGGTC
GCCGTCAACTCGGTGATGAGCGCGATGCAGGCGTACCGCTCTCAATGTGACGCCGCCCCG
CCCCGCGCCGCTCCGTCCCTGGCGCCGCACGCCCTGCTCCCATCCCTGTGCTCGCTGCAC
ACCCGCGCCGTCACTGAGTGTGCTCGCAAGTGTCCCGATGCGTCGCTCCGTTCTCAACTG
CTGGAAGAGGCGTCATCGCTGGCTCGCTCCATCCTCCTGGAGGCGGAACCCCTGGCCGAG
GGTCGCACGGCACATCTATACGAGAAGATGCGCTCCGACACCATACAGCCCTACCTCGCC
GAGGGCCAGGCGGAGCGAGCGGCGGTGCTGGCGGAGAAGTTCAAGGACTTCGAGCTGTTG
ATACAGATGTGTGTGGACAAAAACGACCTGGAGAGGCTGGACGGGTACATGGACAAGTAC
GAGGACGAGGGATTCCCAGAGAAGACGTTCGCCTGGCTGGCGTCCCGCGGGGGTCGCATG
TGTGCGTTGCTGGTGAGGTCGGTGGGGGCCCGCGTCCCTCGGCGCCTGGAGTCCTGGCTG
GCCGCCGCGCCCGACCGCCTCACCCTCAGGACCGTCCACGCTCTGGCACGGGGAGAGCTC
GACCTCGCCACGGAGCTGTTCGCCCAGCTCGCGGATAACGAAAATGTTTACGTCAACAGA
ATGGCGACGGCGGCCTCGTTGTCCAAGCTGTGCTCGCTGGCCGGCGGGTCGCAGGAGGCC
GCCAGCCGCGTCTGTCGCGCCTTCAGCGTCGTCCGCCAACACCGCGCCCTGCCCGCCGCC
CTCACCCGGAGACACGCGCTCGACCAACACGAACCCAAACTGTTCACTCCCGAGGAGCTC
ATACAGATGTACATTGAGTCCGAGAGTCGCTCGCTGACGGAATACGACTACAAGAAGGCG
CTCGACCTGACGGAGCTGGTCACAGACCTGGAGCGGAGAGACGACCTGCGGCTGAAGATC
TGGTGCGCGTGTATCCGTCAAGACGACTGGTCGCGCAGCCGCGTGGACGCGCCGGAGCTG
GAGATGAAGGACAAGATGTTCTTTAGACTCCTCGACCTCGTGCATCTCATGGAGCCGGGC
TCCGCTCAAGTAACTGCAGCTCGAACGTGGGCTGGCTCGACCGGGGCAGGACCACCCTCT
CACAGGCGATCGGCGTCAAGTGGAGAGCTGGACGCGGTGCTGCCGCCGCTGGAGGCCGTG
GTGTCGGCCCCCGAGCTGGAGTCGCTGGCGGCCGACCCGCGCGCCCTCTACCTCCTCAAG
TACGGCTACCAGTGTGTGGCGACACAACACGACGACCAATAG

Protein sequence:

MEFNSTGGMRSPFSPRVRQSISGRRPIGLGSAKKNSKFMQQSEQQTGEIVYKTPFTTLET
FGTPLPVMVTETLTFPSSEVSVRLSSCGWCWAVCGRKVLAWPWDTSLPAATARDLTLPQT
DLAHKADLVVLFYENDAQLPSCIGVSPEGVVRYWSSVGAEGASCDVSCELAGQECDRLIQ
ARDGLLLATTTCTLVRITTTKEARPSVVCHTLRPPSGWLGGLGRRVSVLFFGSMPANHDT
KLVKVVLLSSPRADEQAADKECVALVAGGPLVQLWEDGDVREVSLRRPLCDALARTHLAP
AGELSGLEVAALDAEPHPGGGLLLLLLLTVAAPRAPDARYALAHVSLESEERVRVLSAWC
VRGARSESLPRCLPLQPPLVYNSDAIIGVARTDHSTLSLSPGLHRHTTCRAFIIGHSKTF
AETFVSEASGKDQADVLEVSAEGDSILGASQVGGRALVFTRRHGVLLLRTADPAAQHHAP
SLCDSPLGSPCPSDVFDGNLTLYEIDPNEVVAISGDAVGKLKSAFLYHVRGQQASAAALL
SELAGRLDPSATDRPLDRTVVTVTREMLDDAPAGDPRWKLPSGAATRVSLGSSCSLQAAA
QLHDKQKVYNMFLDFLRSRGLWRRLGTVTGENGEGVSSTQHEVCALGERLAAARALQRLH
QAGAPLVDAALHQVAAGLERAPGHEDEAVLEALRGGALSAADVCWRRVSRVLRVLTALCS
LPPPPHDARAAASHAHHALVAVNSVMSAMQAYRSQCDAAPPRAAPSLAPHALLPSLCSLH
TRAVTECARKCPDASLRSQLLEEASSLARSILLEAEPLAEGRTAHLYEKMRSDTIQPYLA
EGQAERAAVLAEKFKDFELLIQMCVDKNDLERLDGYMDKYEDEGFPEKTFAWLASRGGRM
CALLVRSVGARVPRRLESWLAAAPDRLTLRTVHALARGELDLATELFAQLADNENVYVNR
MATAASLSKLCSLAGGSQEAASRVCRAFSVVRQHRALPAALTRRHALDQHEPKLFTPEEL
IQMYIESESRSLTEYDYKKALDLTELVTDLERRDDLRLKIWCACIRQDDWSRSRVDAPEL
EMKDKMFFRLLDLVHLMEPGSAQVTAARTWAGSTGAGPPSHRRSASSGELDAVLPPLEAV
VSAPELESLAADPRALYLLKYGYQCVATQHDDQ