MonarchBase - Protein-coding gene

DPGLEAN05273 in OGS1.0

New model in OGS2.0	DPOGS207477
Genomic Position	scaffold264:+ 91266-101680
	See gene structure
CDS Length	3930
Paired RNAseq reads	2438
Single RNAseq reads	6835
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA000950 (0.0)
Best Drosophila hit	tho2, isoform A (0.0)
Best Human hit	THO complex subunit 2 (0.0)
Best NR hit (blastp)	THO complex subunit 2 (Tho2) [Aedes aegypti] (0.0)
Best NR hit (blastx)	PREDICTED: similar to tho2 CG31671-PA [Apis mellifera] (0.0)
GeneOntology terms	GO:0006406 mRNA export from nucleus
InterPro families	IPR021418 THO complex, subunitTHOC2, C-terminal IPR021726 THO complex, subunitTHOC2, N-terminal
Orthology group	MCL12478

Nucleotide sequence:

ATGGGATCGTTTAATAAATTTGTATCTGATTATTGTAAAGCATGGGAAAAATCTGGACGG
GAGCAATTCTTAAAAGCAATTACCCAGTTTATAAAGGATGAAGCAAAGAGTCCCTTGTTT
TCCAAGTCAAACAAGCTATCAGGATTGTCACAAACGATCTATGATCTTTTACTTTGTGGT
CTTCGTGGTGTCTTGAAAAAGGATTCTGTAATATCTGTGTTGAAAGATATTGTTGGTGTA
CATGCAGACATACCATCAATATTACTAGATGTAGTTTGTGTTCTGGATTCAGAAACATCT
CTTGATGTCCAGAATGAAGAGAGAAGTAATTTTTGCTATTTAGTTAGGGAGTTGGAGTCG
TTTATATCAGATAAACTCCTGAAGGAGCGTTTAGAGATTGACACCCTGCAGGATGTTGGT
ACACTGAAGAATAAGAATTTTTATACTAAGTTTATTAAAATCAAAACTAAACTATATTAT
AAGCAACGTAAGTTCAACCTTTTTAGAGAAGAAAGTGAAGGCTATTCAAAACTAATAGTT
GAATTAAACCAAGAAATATCCGAAGATACAGATTGGAAGACAATATTAGAAATCATTCAG
TCTCTCATAGGTTGTTTCAACTTGGACCCAAACAGAGTCTTAGATATAATTTTAGAATCA
TTTGAAGCTCGACCTCACTTAGACAAACTATTTATTTCATTAATAAAAAATTACATGGGC
GATGCTCAAGTGATTTGTGAAGTATTAGGATTTAAGCTCGGCGATATGGAAGTATTAGAA
AATTGTAAAAGCCCACCATCATTAATGACTGTCATTGCACTGCTTTTACAACATGAAGTT
ATATCTCTGGACGATATTTACCCCTGGCTACGTCCAGATGATACGGTCATGGCCAAGGAA
GCTGACAAAGAATTTAAAGCTGTGCAGGATTATATTCGTAGACTTAATATTGTATCTACA
AAGGGACCACAGAGTAATGCACCTGCAGAGTTTATCGAAGAAAAAGCTGATCCACAGGAA
TACTGGAACAATCAGAAACTAGTACTCTGTGAAGAGCTCCTAAATGTGAGAGCATGGAAG
GAATTTTCATCACTTTTTTCAAGATTGTCAGTTACTTGCGTACCGCAAAGGCCTGCTATA
GCTTTGTGCAGCATGCTTCACGCTTTGATTGAACCTTTGTACAGAATACATTGTCGAGTA
GCTCCTAAAATAATAGGTAAGCCTATACCACCTTTGAAGTCTCCTTTGGCACCGCCAGCG
TGCAAGACTTTTGAAGATATGAAGGAAACTGTCATACCAGCTCTGATGATGTTGGGTCCA
TCCCTTCATTATGATCCTATTTTAATGTACAAAATAATTCGTGTTCTGAGAACTGCTCGA
TCTCTGAAAGAGGATCCTTTGCATCATGAAGCACTTACAGTGCTGGATACAGCAATACTA
CCAGCATTAAGTCTGATGGAGGGAAATTGTTGCATGGCTGAAGAAGTTTACACCTTGCTT
AAGTTATACCCTTACCAATGCAGATACTGTTTATACGCGAGGTGGAAAAACGAATCCGGT
GAGAAGATCCCGTCGCTGATGCGTGTTCGGGGCAACTCCTTGCAGCGTATAAAACATATT
ATGAAGCGAGTGTCCAAGGAGAACATCAAACCCCAGGGACGTCTCATAGGCAAGCTGTCA
CACGCTGCACCGGCTTTCCTGTTCGATTACATGCTGCTACAAATACAAACCTATGACAAC
CTCATTGGTCCGGTGGTGGAATCTCTGAAGTATTTAACATCCCTCTCCTTGGACATTCTG
GGCTATTGTCTCGTTGAAGCTCTTGCGGCCCGTAAGGGTACCGTGGGAGCCGCACATCCA
CCAGCTCTTCAAGCGCTCGCGGCATTCGCTGCAGCGGCTTTCAAGAAACATAATATAGAA
TTGACGGCATTGCTGCAATTTGTAGCAAATAGGCTTAAAGCGCAGCAGAGTCACGATCTT
CTGATTCTGAAGGAAATAGTGCAAAAAATGGCGGGAATAGAAGCCGCTGAGGAAATGACT
CCGGAACAACTCGATGCCATGGCCGGCGGAGAGCTGCTGAAAGGAGAGGCCGGTTATTTC
TCTCAAGTACGTAACACGAGAAGATCGTCGGCGAGACTGAAAGAGGCCGTGGTGGGAAAT
AATTTGGATATTGCTCTATGTATACTGTCCGCTCAGCAGAGACATTGTTGTGTATGGAAA
GAGTACGCTGAGGATAGTCCATCTAGTGGTGAGCCACGCGGGTCTCAGCTTAAAGTGGTC
GGTCGTCTTGCGGACCAGTGTCAAGACGCGCTTGTCCAACTGGGTACCTTCCTCGCTTCC
TCGCACGCGCCTGATGAATACGCCGCTAGACTTCCACTTCTACAAGAACTACTCCGAGAC
TATCACGTAGACGCCGATGTGGCGTTCTTCCTCCACCGTCCGGTGCTCAGTCAAAAAATA
GCAGCCAAGGCTGAAGCTCTACGAAAAAGCTCCGACAGCAGAAGCGAGTCATTAGAGAGA
AGTATAGAGAGATACAACATAGCTTCTAAAGAGGCGCTGGAACCTATCGTGACGTCGATA
ACTCCCCTACTACCGTCCAGAGTCTGGGAAGATATATCTCCCGAGTTCTATGTGACTTTT
TGGTCCTTGTCCATGTACGACCTTCGCGTGCCCGTCGAGAGTTACGAGAGGGAGATAGAT
CGCTTGAAAACGGCCGCTGCTAATGTAGCCAAAGACAGCTCACAAGGTACCAAAGGAAAA
AAGGAACAGGAACGGTTTAACACTCTCATTGATAAGTTGCAAGAAGAGCGTCGTCGTCAA
GAAGAGCACGTGGCGCGGGTCCGCGGTCGCTTGCAGCGCGAGTGCGTCGCTTGGTTCCCA
GCTCGTGCGGCGAAATCAGCCAAGAACGAGACTGTGACGCGTTTGATGCAACTCTGCATC
TTCCCTCGCTGCATCTTCACGGCCCCGGACGCCTTGTACTGCGCCGAGTTCGTCCACACA
GTCCACGCACTCAAGACGCCTAATTTCTCAACGCTCCTGTGCTATGACCGGTTGTTCTGC
GACATCACGTACTCGGTGATGTCGTGTACGGAGGGCGAGGCAGCTCGCTACGGTCAGTTC
CTGTGCCGTGTGATGAGGACGGCCATGCGCTGGCACAGAGACCGTACGGCCTTCCACGAG
GAGTGCGCGCACTACCCGGGCTTCGTCACCAAGTACAGAGTGTCCAATCAGTTCACTGAA
GCCAACGATCACGTCGGATACGAGAACTACCGGCACGTGTGTCACAAGTGGCACTACAAG
ATCACCAAAGCGATGGTGGTGTGTCTCGACTCCGGGGACTACGTGCAGATAAGAAACGCT
CTGATAGTACTCATACGAGTGTTGCCGCACTTCCCCGTGCTAGAGAAACTCGCACAGATC
ATTGAGAAGAAAGTTGAAAAGGTCAAAGAGGAAGAGAAAACACAACGACAGGACCTGTAC
GTGCTCGCGACGGGTTACAGCGGCCAACTGAGGAACAAGGTGCCTCATATGATGAAGGAG
AGCGACTTCCATCAGATCGTTCATCTCACGACCGGGGAAGTTAAACCCAGGGAGCAGACG
ACCGACGTGCCCGCACCAGATAATGAGAAGAAAGAATCGAGAACAAGCGAGAGACGCCGC
GACGATACTGATCGTGAGAAGGAGGTCAAGCGCGAATCTCGTTCAAACGCCAAGGAGAGA
AACAAAGAAGATGGCAGGACTAAAGACAGATCACCGAGAGAGAGGTCGCACAGAGAGGAA
CGCTACCTGGACACGGTGTCGCCGCCTCATGAACACCGTCATCCGCCCGATGACATAGAT
CGTGATGTGAAACGTCGTAAAGTCGAAAGCAGCGGTAACGGCAAGGTGAGTATCGTTGTG
TATCCTCGGACCAAACTCGCGCCGGACTGA

Protein sequence:

MGSFNKFVSDYCKAWEKSGREQFLKAITQFIKDEAKSPLFSKSNKLSGLSQTIYDLLLCG
LRGVLKKDSVISVLKDIVGVHADIPSILLDVVCVLDSETSLDVQNEERSNFCYLVRELES
FISDKLLKERLEIDTLQDVGTLKNKNFYTKFIKIKTKLYYKQRKFNLFREESEGYSKLIV
ELNQEISEDTDWKTILEIIQSLIGCFNLDPNRVLDIILESFEARPHLDKLFISLIKNYMG
DAQVICEVLGFKLGDMEVLENCKSPPSLMTVIALLLQHEVISLDDIYPWLRPDDTVMAKE
ADKEFKAVQDYIRRLNIVSTKGPQSNAPAEFIEEKADPQEYWNNQKLVLCEELLNVRAWK
EFSSLFSRLSVTCVPQRPAIALCSMLHALIEPLYRIHCRVAPKIIGKPIPPLKSPLAPPA
CKTFEDMKETVIPALMMLGPSLHYDPILMYKIIRVLRTARSLKEDPLHHEALTVLDTAIL
PALSLMEGNCCMAEEVYTLLKLYPYQCRYCLYARWKNESGEKIPSLMRVRGNSLQRIKHI
MKRVSKENIKPQGRLIGKLSHAAPAFLFDYMLLQIQTYDNLIGPVVESLKYLTSLSLDIL
GYCLVEALAARKGTVGAAHPPALQALAAFAAAAFKKHNIELTALLQFVANRLKAQQSHDL
LILKEIVQKMAGIEAAEEMTPEQLDAMAGGELLKGEAGYFSQVRNTRRSSARLKEAVVGN
NLDIALCILSAQQRHCCVWKEYAEDSPSSGEPRGSQLKVVGRLADQCQDALVQLGTFLAS
SHAPDEYAARLPLLQELLRDYHVDADVAFFLHRPVLSQKIAAKAEALRKSSDSRSESLER
SIERYNIASKEALEPIVTSITPLLPSRVWEDISPEFYVTFWSLSMYDLRVPVESYEREID
RLKTAAANVAKDSSQGTKGKKEQERFNTLIDKLQEERRRQEEHVARVRGRLQRECVAWFP
ARAAKSAKNETVTRLMQLCIFPRCIFTAPDALYCAEFVHTVHALKTPNFSTLLCYDRLFC
DITYSVMSCTEGEAARYGQFLCRVMRTAMRWHRDRTAFHEECAHYPGFVTKYRVSNQFTE
ANDHVGYENYRHVCHKWHYKITKAMVVCLDSGDYVQIRNALIVLIRVLPHFPVLEKLAQI
IEKKVEKVKEEEKTQRQDLYVLATGYSGQLRNKVPHMMKESDFHQIVHLTTGEVKPREQT
TDVPAPDNEKKESRTSERRRDDTDREKEVKRESRSNAKERNKEDGRTKDRSPRERSHREE
RYLDTVSPPHEHRHPPDDIDRDVKRRKVESSGNGKVSIVVYPRTKLAPD