MonarchBase - Protein-coding gene

DPGLEAN18087 in OGS1.0

New model in OGS2.0	DPOGS212302
Genomic Position	scaffold1499:+ 36798-49249
	See gene structure
CDS Length	3621
Paired RNAseq reads	645
Single RNAseq reads	1741
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA005474 (1e-81)
Best Drosophila hit	CG16989 (1e-42)
Best Human hit	HEAT repeat-containing protein 6 (2e-45)
Best NR hit (blastp)	PREDICTED: similar to HEAT repeat containing 6 [Tribolium castaneum] (7e-66)
Best NR hit (blastx)	eg:34f3.4 protein [Aedes aegypti] (4e-63)
GeneOntology terms	GO:0005488 binding GO:0008150 biological_process GO:0005575 cellular_component
InterPro families	IPR016024 Armadillo-type fold IPR011989 Armadillo-like helical
Orthology group	MCL13974

Nucleotide sequence:

ATGAATGTCTTCGAGCAATTCTCACAACTCTCGGAAGAACTATGTAGTCATCTATATTTA
AAAGAGTATGATAAAAGCGACATAAATGCTTTAATAGATGAACTTAATGCGAAGCCTTAT
AATTCAAATTTATTTGTCCGCAAAGAGGATGCCGCTGCCCTGGTGACCTCATTATGTTTC
AATATCAAACCTGTTGATGAATTTCTGTCAACTAAGACATCACATTTGATAAACAGTCTA
GTCACCAAACAAAGTCTTAAATTTGGCTATGATTTCTTATTTAAAGTAGTAGCTTGGCAT
ATTGAATGCATAAAAACATGTTCAGATATCATATTACCTGATATTCTTCATAACCTCCAG
TGCATATTGCAAACAAACCCACAAAGTGGTAGTAAGGTTGTTATAGAATTTTTAATGAAA
GATTATTCTAAGTCTCAAGATGAGTCTATGTACTGTAAAGTTGTGATATCTGGCTTGAGA
GTTCTATCTTACATATACTTTAATGACTCCAGTGTGAACCTATCAATGCCAGAGATAATA
GGTATTTGCCGGTATTTCATTCTATATGCTCTTATAGTACAAGGACGTCCGGATAGAATT
ATGCCATCTCAGCAAACTATAGCAGCTGAACCTGTGAAAATACAACCAAAAGGGGGGAAA
AAACAAAAAATCCGAAAACACAGGAACAACGCAATCGAGAGTCTAAAGAAAGAAATACCC
GTATCAGATCGCAGTTTAATGAAGGATGTCAAAAGCTTTGACAGTTCATATAAACCGGCC
AGTGATTACTTGGAACCTCAGAAACCCAGATCCAGCTGGGTTTTAACGAGTGACAGTGAT
TTGTCAGATATAGAAAATGGTAGAGAAGCTAAACTAATAGCTCTAAAATCAAGAGTTAGA
CAGAGTGCAGCAAATCTCTTTCTTGTTGTCTTCAAGGTGAAAGAAAAACGTGATACATTT
GGATATTGGTGGGCTCTCTTACCAGATTGTCCAGTGGATAACTGGCTTGGAGAGGAAAAG
TCAAAGAAGACATTAGCTTATTGTGCCGTCGTAGACCCAGTAGCATCTAGCAGAGCAAGC
GCCCTCAGTGTAATTTTAGCTTTATTGTCTGGATCCAGGAGTTATTTGGCCCAAGCTGAA
ACCAGCAAGAAAAACACATCATTTATTCCGTTTTCCGTGTCATTGGGTTACATCATAACG
TGCCTTCATAAAATTCTGATAACTATTCTGGAATGCGAGCGGAACCACGCGGTGATCATT
GTAGCGTTGAAGTGTGCCGCCGCGCTAGTACAAGCGACTCCGTACCATAAAATGCAGGAG
GGTCTTATAAGTGGGATTGTTAGGTCCACTAGAAAGTTCTTAGTCCATAGAGATGTTACC
TTACAAGTAGCGTCCCTGGTGACAATAGGATGTGTCCTGTCAGTTGATCCCAAAGTAGAG
GAAATATTGCAGGCCATGGAAAAGGACCAAGTATGTAATAAGTCGCAACAAAATATATTG
AATAAGGAAAATGTGTCTTTGAACGATGAATGCGATGATTTCGAGGAGGGTTACTCTGAC
GATGAAATGTTTACCGCAGAAACGGTGAACGATAAGAGTGAGGAAGTGGATAAGTATTTG
TTCAAGAGTTGGATTCTGGATATCTGTTTTAAAAATATGGGATGGCTGTTCAGGAGCAAT
GAGATTGTTAGATGCAAGCCGTCAACGATACCTGTTATTCTAGAATCCTTGCAAGTCCTA
TCAGCGATAGCGTTCCATCACCTGGCAGATTTCCTCTCCTCCCACATAATGTTACTTGGT
GATATATTGAAAGAGATGTTGAAACACGAACACCAAGACGTCGTGCTGCAGGCTGCGAGG
ACTATAAGTATAATTGGAGACGCGCTACAGAAACTAGAACAGCAAGATCTATCCCCACCG
CTGAGTCACTGTGTGTACATGTGGGAGACTCTGCTGACGCCTCTATCGTTAGTACTACAG
AACCACGACAACGCCCCCGCTAAAGCAGTCGTATGCGATTGTATCGCTAACATCGGTGAG
AAGTGCTTCAAACAGATACCGGATCGCAGCCAGCGTGTGTGCTGCGCCCTGCTCGTTGGT
TCGTGTGGTGACGAGGAGGCGGGCATCCGAGCGGCCGCAGTCAGGTCACTCGCTATGACC
GTCATGTACCGCACGCTCAGGGAGGATATTTGTTTCGTGAGCGACTGCGGTGAGAATATC
CTGCGAGCGCTGGCTGAACCCACGGCGGTGGTCAGGACGAAGGCTGCCTGGGCGCTGGGC
AACTTGAGCGACGCCCTCGATCGCAGCCAGCGTGTGTGCTGCGCCCTGCTGGTTGGTTCG
TGCGGTGACGAGGAGGCGGGCGTCCGAGCGGCCGCGGTCAGGTCACTGGCTATGACCGTC
ATGTACCGCACGCTCAGGGAGGATATTTGTTTCGTGAGCGACTGCGGTGAGAATATCCTG
CGAGCGCTGGCTGAACCCACGGCGGTGGTCAGGACGAAGGCTGCCTGGGCGCTGGGCAAC
TTGAGCGACGCCCTCGTCTTAAACATGGAAGACCCCGATATTGACGATATAGATGACGAC
TTGTTGCTCCGTCTGCTTGAGGTCAGCGTGCGGTGTGCGGATGATAATGATAAGTACATC
TGTACTAAGAAAAAAGCTAAGGCTCGTGTGAATTCTTGTCATATGCAACCAAATCCGAGC
AATAATAGTGAGGTGTACAATGTTCGTCCTACCCGCATCCTCACGCGACGATCAAACCGT
AGATCGAGAGAGTTTCTCTGCGTAGAGCGCGAAAACGATGACGCCGAGTGGCTTGACGAA
AAGGATGTTGGTCTGCAACCAAGCGCTGTGCCAACATGTGACCTGCAAGATGCTCTATAT
CCAGTTATTGGTGTAGAAAAAAATCTGACGAACCCGTGCTCTGAGGATACTGTCAAAATG
AGCGCCACCCGCGGCCTCGGCAATCTGTTGCGTTTGATCAAGAATAAGAATATACAACGA
TATCCGCAATTAAAGACCTTATGTCAGACGGCTATAGAGAAGCTTTTGGATTGCGCGTGT
AAAGGCACCAATATGAAGGTCAGGTGGAACGCCTGTCACGCCCTCGGGAACTCTATGAAG
AACGACGATCTGTTCACTACGAAATTGCCTACCGGCAAAGTGTTCCCAAAGTTGTGTACT
TTGACGCAAGACTGTAAGAATCTCAAAGTTAGGATAACAGCGGCGGTCGCACTGCGAGTG
TCGCGTACGCATTGTGGTCAGTACTATGGCATGTTATGGAGGGGGGTAATGGCGGCCATG
GAGAATGCAGCTAACGTTGACGATTACACGGAATACAGGCATAAGGATAATCTCGTTGAA
CAGCTCTGCGTCACCTTGGCCCATTTGTGCTGTCTTCTAAAACTCCCTGACCTGGCGGAC
ATATTGGATCCTCTAGTCTTCCACTTCGACTGCGCCAAATCTCTCTTCACACAGCTGCAT
CACAAACTACCGCCGGAAAATGTCTCCTATTTGAAAATATTGGAAGCCGCTAAATATGTA
ACGGTCGAATTAGTTCCAGAGAATGATACACAGTCCCAGACCGTCGGAATGTTACAGGAA
TTATTTATTTGGGATGTTTAA

Protein sequence:

MNVFEQFSQLSEELCSHLYLKEYDKSDINALIDELNAKPYNSNLFVRKEDAAALVTSLCF
NIKPVDEFLSTKTSHLINSLVTKQSLKFGYDFLFKVVAWHIECIKTCSDIILPDILHNLQ
CILQTNPQSGSKVVIEFLMKDYSKSQDESMYCKVVISGLRVLSYIYFNDSSVNLSMPEII
GICRYFILYALIVQGRPDRIMPSQQTIAAEPVKIQPKGGKKQKIRKHRNNAIESLKKEIP
VSDRSLMKDVKSFDSSYKPASDYLEPQKPRSSWVLTSDSDLSDIENGREAKLIALKSRVR
QSAANLFLVVFKVKEKRDTFGYWWALLPDCPVDNWLGEEKSKKTLAYCAVVDPVASSRAS
ALSVILALLSGSRSYLAQAETSKKNTSFIPFSVSLGYIITCLHKILITILECERNHAVII
VALKCAAALVQATPYHKMQEGLISGIVRSTRKFLVHRDVTLQVASLVTIGCVLSVDPKVE
EILQAMEKDQVCNKSQQNILNKENVSLNDECDDFEEGYSDDEMFTAETVNDKSEEVDKYL
FKSWILDICFKNMGWLFRSNEIVRCKPSTIPVILESLQVLSAIAFHHLADFLSSHIMLLG
DILKEMLKHEHQDVVLQAARTISIIGDALQKLEQQDLSPPLSHCVYMWETLLTPLSLVLQ
NHDNAPAKAVVCDCIANIGEKCFKQIPDRSQRVCCALLVGSCGDEEAGIRAAAVRSLAMT
VMYRTLREDICFVSDCGENILRALAEPTAVVRTKAAWALGNLSDALDRSQRVCCALLVGS
CGDEEAGVRAAAVRSLAMTVMYRTLREDICFVSDCGENILRALAEPTAVVRTKAAWALGN
LSDALVLNMEDPDIDDIDDDLLLRLLEVSVRCADDNDKYICTKKKAKARVNSCHMQPNPS
NNSEVYNVRPTRILTRRSNRRSREFLCVERENDDAEWLDEKDVGLQPSAVPTCDLQDALY
PVIGVEKNLTNPCSEDTVKMSATRGLGNLLRLIKNKNIQRYPQLKTLCQTAIEKLLDCAC
KGTNMKVRWNACHALGNSMKNDDLFTTKLPTGKVFPKLCTLTQDCKNLKVRITAAVALRV
SRTHCGQYYGMLWRGVMAAMENAANVDDYTEYRHKDNLVEQLCVTLAHLCCLLKLPDLAD
ILDPLVFHFDCAKSLFTQLHHKLPPENVSYLKILEAAKYVTVELVPENDTQSQTVGMLQE
LFIWDV