MonarchBase - Protein-coding gene

DPGLEAN02551 in OGS1.0

New model in OGS2.0	DPOGS200895
Genomic Position	scaffold5:- 312683-333496
	See gene structure
CDS Length	3492
Paired RNAseq reads	4115
Single RNAseq reads	10139
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA000546 (1e-10)
Best Drosophila hit	CG7546, isoform D (6e-14)
Best Human hit	large proline-rich protein BAT3 isoform a (4e-12)
Best NR hit (blastp)	hypothetical protein AaeL_AAEL014998 [Aedes aegypti] (2e-21)
Best NR hit (blastx)	hypothetical protein AaeL_AAEL014998 [Aedes aegypti] (2e-19)
GeneOntology terms	GO:0005515 protein binding GO:0005634 nucleus GO:0005737 cytoplasm GO:0042127 regulation of cell proliferation
InterPro families	IPR000626 Ubiquitin IPR021925 Protein of unknown function DUF3538 IPR019955 Ubiquitin supergroup
Orthology group	ND

Nucleotide sequence:

ATGATTGAATTCACTATAAAAACGCTAGATTCCCGGGATCACCCGTTTTCCGTGGACGAT
GAGATTACAGTGGCACAGCTCAAAGAGAAAGTGCAGGAGCAGATGGGGATTGAAATTGGA
CTTCAGCGCCTCATCTTTTGTGGCAGAGTTCTTGCGGATGAAAAGAAACTAGCTGACTAT
GATGTCCATGGGAAGGTGATTCACATGGTGCAAAGGGCACCGCCATGCGTCGAAGAGCGG
GAGACCTTGAGGGAGCGAGAGCGGGAGCGCGAGCGCGAGAGGGAACGTGAAAGGATGAAC
TCATTCACCAATCTAAATACGGATCCCATTAACTATGGAGCTGTTCATTTTAATCACATT
ACACAACAGCAGATAAGACGCCTTATGGCTTTGGCATCGACTGCCCATGGTATTGAGATC
GAAGAGCCACCGGGCTCCGCCCTGTCTCCTACTGGGACGCGCTTGGACTTCCTCCGCCGT
CTCATCATTGAAATACGATCAACCCTCGATGCTATCATACAAAATGAAAGTAATGAACCA
CGTAGTTTTTCAACTGAAGATCCATTGGAACCCAGAACAAGCCAGGGAGAATCTAGTTCG
GTGCCAGATGAGCTCGATCAAGGCACCGGAGGTACCCGCGAGGGTCGCGGACGCAGGATT
CGTCAGGCTCAGGCTGCTTACCACACGCCTCCTATTGAGTTCGGCCAGCTCGTAGCTGAG
CTCCACGAGTTGCATAATGAGTTTACTCCCTTCAGGGAGGCATACATCATGACGCTAAAT
GAAGCCAGCGATTCGAATGTCCAGCTGACAGAGGACGTACTCCAACGTCGCCAGCGCACC
GCTGATCTGGCCGCAGAGTTGTACCATAGCTTCTCTCACGCCTACCATGTCGTGAGCGAT
ATTGGACTCATGTTGGCTCATCGCAACTCTCGTCTCATGTCGGAGGCTCTGATGCGCCAC
CCTTTGCCATTGCAGGCGCACATTAATGTTGTGCAAACACCCGCTAACCGTCGTCAGACA
AACGCGTCTTCATCGACCGGCGCGGGTCCGTCCACCGAGAGCCCGCAACCCAGCAGTTCA
CAAGCCGGTAACCCGACCGTCAATATAGATATACAGCCAGATCCTATTACTTACCAAGTA
GAAATAGAAACCAGGGTTCCGCTTGAAGCCACGGCTGAAAACCTGAACGATCAAATGCCG
AGCCAGGAGGGTCAGGATCTGGGCGGTCGCCCACAATCTATGAACGATTTTGACAGTCTG
TTTAGGGGATTGGGACAACCTGGCGGTATTAGGGGAGTTGAAGTACTTATGAGTATGGAA
GAGATCACTCCGGTTAATGGTACTTTCACTGCTGCAATTCCAACTCTGAACTTGCAACCG
GATGTGGGAGTTACCGGAGGTAACCAACCTCTGTACGGATCACAAATATATCTAGCTCAA
ATGCCGTGGGGTGCTGCTAATCAGGCAGCTCCGAGCGCAGATCTGTTGCAGAACATCGTG
TCCTCAGTTATCAGACAGGGTCTCGTTGCTGGGATGGAGGGAGCTATGACCGCCCACGTG
CAACAGGCCCATGTGCCAGGTCAAGGTCTCGGTGAAGGTCAGGTTCCAATGCAGGCGGAC
AACGCTCCGCCCCAACAACCCGACCCAAACCAGACACCAGCTCAAGAACAATCTCAAGAG
AATCAGACCAATACAGAACAAAATACAAATCCTAGTACGCGACGCGTTCCAAGGCTGTTC
ACCCCTCGTCGTCAAGGAACGAACACAGCTCGCGGTCAGACGGTGTCCTTGAACAATTTG
GTATACGACAGATTCCTTCAATGCGACAGTCATCACGCCCGTCGTCAGCTAACACGCCGC
CGTGAGGAGACGTCGTTGGCCGGCGGACCTCTGCTTCGTGACGATAACAGTCAACGCGTG
CAGAATAACGTGGAGACCTTGTACGAACGTTTCGACAGGAGCGCCATTAATGAAGAGTCT
CTCATGATAGCTACTATGGTCACTCTGCGTGAGGCCATATCGTTCACCGGGGGTCGAACT
CTGGTCCCGGACGAATTGCAACCACTGCGCTATCGTCTCCAAGTGTACATGCGCGAACTC
ATGCAGGGCGAGTACGAGGTTGGCACGCAAAGCCACCTCGCTGATCTGATATTCGAGCGC
CACGCCGAATTTATTAACCGCGTTACTGCTATAACGCCGACTCGTCCCAACGTGGATGTG
ACTGCTTCAATGAAGGCTGTGTTCCTACGTTTCCTGAATGAGGCTATGACGGTGCTGGAT
ATTGAGAACATTGAAGTATTTTCTCGTCGCTTCCGGATCGTGTACCCGAGGCTTTTCTAC
GAACTATGCGGAGTCATCTCTTATTGTTGCTTGGAGGGTGTTGAGGGTCTTAAGAAGATA
TACCGCTCTTTCTTGACGGAATTGCTGCAGAATGTTGGAGAACCAGTACGTGATCTTCTC
TATAGCCTGTCGATGGAGAACTTGAATGCTGCGATCTGCCGCATTGAACATAACAGGCTC
CACTTCGCACAGTTCATACGTCGCAAGGAACAGCAGCCTTCCACATCGACCGCGATCGTA
ATGATGAATGAGCCGTGTACTACAATGGACGTGTCACCTCGGCCCGAGCCGGTGCCGATG
TCTCCACGTGATGATAATGCTGATTCAGAGGAATCAGATGCACCAGTGGCCGGCTGCGAC
CGCAAGGAGGAATCCTCGTCGGACATGTCGTCCAAAGACGAATCTTCGTCTGATAATTCA
CCGAAGGGCGAGACGTCACGCGATCAGCACAGAAGGGACGAGTCCAGGAGACATCATTCA
TCGAGAGTCGATTCACTCTCGCCAGTTTTGTTTGGCGCAACACGGAAGCCGTGGACATTA
AAGAATTCAAACAAGAAGACGCCTTCAAAATTCCCCAAGACGTCTACGCCGAGGGAGCAA
CTCGCTCAGCCGACGACACCGCTGCAGGGTGCACCTAATGTCACACTCGTCAGATATGGA
GCACCCAGAGTTACGAGTGGTTTACGTCACCGCAAGGTGAATCGAGCTAACAAATCAGGC
TCTGGTTCTAAGCCAGATGCCTCTGGATTATTCGTACCACCTGAGTCGATAGCGCAACAT
TGGGGCGAAGAATGGGTGCCAACTTTCACCCGTGATGTACAGGAGCAGGAACATCGTGAT
ACCGCTGAGCCCTACAGTGATGCCTACCTTTCGGGCATGCCTCCGAAGAAACGTAGATGC
GTGCGACAGTCGCGACCTCCTACGACACTGAACGCGTTCATCGCTGAGAGCGTGAACGAG
GTATCGTCTCTGGGCAGCGTCCAGGGCGAGGAGCTGAGGGCAGCGTTTCGCGAGCACATG
AGATGCATCGCCCGCGAGCGCGCTGCCGTCTCCGAGGATTACGAGCCGCGCCGGTTCGTC
GCCACTGCACGCTTCCTCAACCAGACCAGGACGAGTACGCGGAAGTCGCCAGAACGCAGC
AGCTCTAATTAA

Protein sequence:

MIEFTIKTLDSRDHPFSVDDEITVAQLKEKVQEQMGIEIGLQRLIFCGRVLADEKKLADY
DVHGKVIHMVQRAPPCVEERETLRERERERERERERERMNSFTNLNTDPINYGAVHFNHI
TQQQIRRLMALASTAHGIEIEEPPGSALSPTGTRLDFLRRLIIEIRSTLDAIIQNESNEP
RSFSTEDPLEPRTSQGESSSVPDELDQGTGGTREGRGRRIRQAQAAYHTPPIEFGQLVAE
LHELHNEFTPFREAYIMTLNEASDSNVQLTEDVLQRRQRTADLAAELYHSFSHAYHVVSD
IGLMLAHRNSRLMSEALMRHPLPLQAHINVVQTPANRRQTNASSSTGAGPSTESPQPSSS
QAGNPTVNIDIQPDPITYQVEIETRVPLEATAENLNDQMPSQEGQDLGGRPQSMNDFDSL
FRGLGQPGGIRGVEVLMSMEEITPVNGTFTAAIPTLNLQPDVGVTGGNQPLYGSQIYLAQ
MPWGAANQAAPSADLLQNIVSSVIRQGLVAGMEGAMTAHVQQAHVPGQGLGEGQVPMQAD
NAPPQQPDPNQTPAQEQSQENQTNTEQNTNPSTRRVPRLFTPRRQGTNTARGQTVSLNNL
VYDRFLQCDSHHARRQLTRRREETSLAGGPLLRDDNSQRVQNNVETLYERFDRSAINEES
LMIATMVTLREAISFTGGRTLVPDELQPLRYRLQVYMRELMQGEYEVGTQSHLADLIFER
HAEFINRVTAITPTRPNVDVTASMKAVFLRFLNEAMTVLDIENIEVFSRRFRIVYPRLFY
ELCGVISYCCLEGVEGLKKIYRSFLTELLQNVGEPVRDLLYSLSMENLNAAICRIEHNRL
HFAQFIRRKEQQPSTSTAIVMMNEPCTTMDVSPRPEPVPMSPRDDNADSEESDAPVAGCD
RKEESSSDMSSKDESSSDNSPKGETSRDQHRRDESRRHHSSRVDSLSPVLFGATRKPWTL
KNSNKKTPSKFPKTSTPREQLAQPTTPLQGAPNVTLVRYGAPRVTSGLRHRKVNRANKSG
SGSKPDASGLFVPPESIAQHWGEEWVPTFTRDVQEQEHRDTAEPYSDAYLSGMPPKKRRC
VRQSRPPTTLNAFIAESVNEVSSLGSVQGEELRAAFREHMRCIARERAAVSEDYEPRRFV
ATARFLNQTRTSTRKSPERSSSN