MonarchBase - Protein-coding gene

DPGLEAN16487 in OGS1.0

New model in OGS2.0	DPOGS213726
Genomic Position	scaffold1222:- 27514-35541
	See gene structure
CDS Length	3372
Paired RNAseq reads	2170
Single RNAseq reads	6035
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA011631 (8e-20)
Best Drosophila hit	CG32479 (5e-75)
Best Human hit	ubiquitin carboxyl-terminal hydrolase 10 (3e-55)
Best NR hit (blastp)	hypothetical protein AaeL_AAEL003733 [Aedes aegypti] (8e-115)
Best NR hit (blastx)	hypothetical protein AaeL_AAEL003733 [Aedes aegypti] (1e-90)
GeneOntology terms	GO:0004221 ubiquitin thiolesterase activity GO:0006511 ubiquitin-dependent protein catabolic process
InterPro families	IPR018200 Peptidase C19, ubiquitin carboxyl-terminal hydrolase 2, conserved site IPR001394 Peptidase C19, ubiquitin carboxyl-terminal hydrolase 2
Orthology group	MCL15387

Nucleotide sequence:

ATGGATTTAATGAAAACGGAATATGAGTTCCTAGACTTGTCAGATGTGAAAGAAGCGGAA
CTAAGCAGCCTGCAGTGCGCTCTCTTCGAAAAAAAGCCCAGAGTTGCGTCCACCGCACCC
AACGGTTGGAACGATCCTACTGTAGACGTTTCATCTTGTTCATCGAGTACGGCGGGAGCA
CCGACGGTGTCGAGCAGCCTGGACAGCCTGTCCGGCGGCGAGTGCGAAATGGCGCCACAC
TCGCCACAGCGAGGCGCGGGTGGGCCACCACACGCGCCGCCGCCATACGTCCAGCCGCCG
ACATACCCGCCACACCAATGGCCCGTCGCCCCGCCAAACGTATACGTCAGCCAAGTCACA
GCCAATGTGAACGTTCACGGCTACATGGGCCAGTACTACCAACCTCCGCAGCCACAATAC
ATCCCACCTCCACAAGTTGAACGCCCGGCGAGGAATCAGAGGAGAGAGCGACGAAATAAA
AGAGCCCCATCTCCTCCACCGCCGCAACCGCCTCCCTACTATGTGCCGTATTCTCAATAC
TATCCTGCGGCTCAAGCTCAAGGCGCGCCGCTGTACCATCTGCCTATGTATCAGCCCTTG
ATGTATGGGCCATATGCATATCCACCTTATTACCCTGAGTACCCTATACCAGTTGAAGGC
GACGCTGGTGATAAGGGGCCCGATGAATATCAGCAAGAAGTTGTCATGGAACAAGAAGCG
GTAGATGCTTATTATGCAAGCGCTCATTACGCCGCTCCGCCATACGGACCGCCAGTCGAT
GGAGGTGTAGAATACATGCCGCCTTTGTATCTGCCTCCACCGCATCATCCAGCCCAAATG
CACATACCGCAACAACAGTTACATCAACCCGTCCCTCATCAATTCAATGTACATGCCAAA
AATTTTGTACAAGGGCAAAATCAAATTAAAAACTACACACCTGACAAGACTCAGGAACCA
AAACCACCTGTTGTTGCACCTTCATCTACTCCGCCAACAACGGTATCATCAACGACAGTC
AGTCCAGTTGAATCGCTGCCAATCAAAGATCTCAAGATTAACAAAGGACCCGGAAGTCCA
AACCAGGAAAGGTCTCCAGAAATTCCAAAAGACGCCACATCTAACTCTAAAATTTCTCCA
ACTCTTAAAACCGATCCATCAAAACCAGCTTGGACATCTGATAATAAACCTCAAGAACCG
AGTGTAGCTCAAAATACACCGAAAACTTTTACGCCAACGCCAACTACTAATGTTCCGTCA
GCAAGCGCAAAAGTCCCCCCAGTTCCTACAAAAGCTCCAAAGGGACCGACAGCACCATTC
TCAGCTAACAAACAGCTTCCTAAACCACCGCTACCATCAGCTGTTCCGGTACAGCAATCG
GTTACCACACCAAAAGCGCCGTTTGGTAACAGACAAAAGCGTGAAGGAAATTCAAATCGT
TCACCATCCACGGAAATGCCAGAAATGGATAAACCTGCACCGATAGAGCATACCAAGCGC
GAGCCTCCCCTACCACCTAGCAAGGCGCCGATGCCTATATCTATTACACTACACGCTCAA
GGACCGCCGGTGATTGTGACAAACAAATCTCCTTTTGCACACTCAAGGAAGGTCGTTCCC
GTTCCGGAACTACCTCCAGTACCACAGCCTCCACCTCCAGCGCCGACAGCATCAGATTTT
CCTCCACCCCCCACGCCCAGAAATAGGGGAGAACCCGTTCCCCCACCAGTGGTACAACCG
CAACCGCAACCAGCACCAGGAAAGTCTTGGGCTAGTCTTTTCTCAAACAAACCCAGCAGT
ATAACTACGACAATCGCACAAACAACTGTTGCTCCTACAGAAGAACCGTCAAGCCCAACA
ACTTTGACGCCGCCGGCTGCTACAAACATTCAGAAACCCGTAGCAAAAGTCCCTCCATAT
GATGCTTCACCGTTACAAACGAATTCAGTAGAAAAACAAATTGCACCAAGGCCTATACCG
ACGCCTGCACCCACTCTGTCGTATTCAGAAAAGACTTCAGTGAATGCTGTGAGCAATGTT
ACTACTACTATGCCTCCGGCTAAAACAGCGACATCCCCTACTACAGAGGTTCGGGAAATG
CCAATACAAAAGGAAGCTACTACACCAGCTTTACCACTACCACCTTCACCATTCAGTGAT
GATCCCAATTCATACAGGATGGGAGAGTTTTTGTCTAAATACACGCTGGACAATAGGCCA
GTTTCTTTAACACCTCGCGGCCTTACAAATCATTCAAACTACTGCTATGTGAACGCTATA
CTTCAGGCTTTGATAGCTTGTCCGCCATTCTACAATATGTTAAAGGCGCTGCCTTACCAA
ACTAGGCGTGGGAAGTCCAGTACTCCAGTTATCGATTCTATGGTCGAGCTATGTTACGCT
TTCGGTCCATTACCGAGCGCAAACCGAAGAGGCCGTGGTGAATCTGGCGCGTCGGGAGCT
CCGGCCGTGCCCGCCATGTCGCCGCTAGATGGCTCGGCGGGTCTCCGAGTTTTGAGAGCG
TTGCGACCCTTCCCCGGCTCACAAGAAGGTCGCCAGGAAGACGCCGAGGAATTCCTTGGA
TGCTTACTAAACTCGCTCAATGATGAAATGCTCGAGTTAATAAAATTAGTTGAACCTGAA
GAGCCAAAAGATTTGAATGGAAAGCCAAATGGCATTGTAGCACAAGAACAACCCCCAGAC
GAGGACAATGATGATGACGAGTGGAAGGTGATGGGTCCTCGTAACCGTGGTGCTGTTGAA
CGTCGCTGGGCGGCACGTCGGACACCAGTAGCAGATATCTTCAGAGGTCGCACTCGCCTA
CGTCTTCACAGGGCCCCTAATCATGACGTCACAGATGCCGTACAACCATTCTTCACACTC
CAACTTGATATTGAGCGTTCTACCACAGTTAAAGATGCGTTAGAACTTCTCGCCGGCAAG
GATACTTTAGAAGGTGTATCGGATGCTTGGCAGCAATTGTCTCTGGAACAACTCCCTGTA
GTGCTATTGCTGCATTTGAAATGTTTCCAACTGGATTCCGAGGGCCACACAGCCAAAATT
GTGAAGAACATTGACTTCCCCATTGATCTCAAAATTGACCCCAAAATAATTTCATCGAAG
CACACGACTAAGCAACGTCTATACAAACTGTTTGCTGTTGTGTACCATGAAGGTGTAGAG
GCTGTGAAGGGACACTATCTGACGGACACCTTCCACGGACAGGTTGGATGGATTAGGTAC
GACGACTCCACTGTGACTCAAGTGACGGATGCCCAGGTGTTGAAACCCAAGCCGCCAAGG
ATGCCGTACCTGCTGATGTATCGTAGGCACGATACGCTTGCACCTAATCGTCAATCTGGC
AAGGCGGAATAG

Protein sequence:

MDLMKTEYEFLDLSDVKEAELSSLQCALFEKKPRVASTAPNGWNDPTVDVSSCSSSTAGA
PTVSSSLDSLSGGECEMAPHSPQRGAGGPPHAPPPYVQPPTYPPHQWPVAPPNVYVSQVT
ANVNVHGYMGQYYQPPQPQYIPPPQVERPARNQRRERRNKRAPSPPPPQPPPYYVPYSQY
YPAAQAQGAPLYHLPMYQPLMYGPYAYPPYYPEYPIPVEGDAGDKGPDEYQQEVVMEQEA
VDAYYASAHYAAPPYGPPVDGGVEYMPPLYLPPPHHPAQMHIPQQQLHQPVPHQFNVHAK
NFVQGQNQIKNYTPDKTQEPKPPVVAPSSTPPTTVSSTTVSPVESLPIKDLKINKGPGSP
NQERSPEIPKDATSNSKISPTLKTDPSKPAWTSDNKPQEPSVAQNTPKTFTPTPTTNVPS
ASAKVPPVPTKAPKGPTAPFSANKQLPKPPLPSAVPVQQSVTTPKAPFGNRQKREGNSNR
SPSTEMPEMDKPAPIEHTKREPPLPPSKAPMPISITLHAQGPPVIVTNKSPFAHSRKVVP
VPELPPVPQPPPPAPTASDFPPPPTPRNRGEPVPPPVVQPQPQPAPGKSWASLFSNKPSS
ITTTIAQTTVAPTEEPSSPTTLTPPAATNIQKPVAKVPPYDASPLQTNSVEKQIAPRPIP
TPAPTLSYSEKTSVNAVSNVTTTMPPAKTATSPTTEVREMPIQKEATTPALPLPPSPFSD
DPNSYRMGEFLSKYTLDNRPVSLTPRGLTNHSNYCYVNAILQALIACPPFYNMLKALPYQ
TRRGKSSTPVIDSMVELCYAFGPLPSANRRGRGESGASGAPAVPAMSPLDGSAGLRVLRA
LRPFPGSQEGRQEDAEEFLGCLLNSLNDEMLELIKLVEPEEPKDLNGKPNGIVAQEQPPD
EDNDDDEWKVMGPRNRGAVERRWAARRTPVADIFRGRTRLRLHRAPNHDVTDAVQPFFTL
QLDIERSTTVKDALELLAGKDTLEGVSDAWQQLSLEQLPVVLLLHLKCFQLDSEGHTAKI
VKNIDFPIDLKIDPKIISSKHTTKQRLYKLFAVVYHEGVEAVKGHYLTDTFHGQVGWIRY
DDSTVTQVTDAQVLKPKPPRMPYLLMYRRHDTLAPNRQSGKAE