MonarchBase - Protein-coding gene

DPGLEAN02568 in OGS1.0

New model in OGS2.0	DPOGS200913
Genomic Position	scaffold5:+ 436801-445656
	See gene structure
CDS Length	3570
Paired RNAseq reads	90
Single RNAseq reads	242
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA000681 (4e-32)
Best Drosophila hit	TweedleT (4e-12)
Best Human hit	ND
Best NR hit (blastp)	cuticular protein tweedle motif 1 [Bombyx mori] (2e-47)
Best NR hit (blastx)	cuticular protein tweedle motif 1 [Bombyx mori] (3e-42)
GeneOntology terms	GO:0003674 molecular_function GO:0005575 cellular_component GO:0008150 biological_process
InterPro families	IPR004145 Domain of unknown function DUF243
Orthology group	MCL10002

Nucleotide sequence:

ATGGCCAAAGATACAGATGTATTAAAGACCTTTATTCAGCAAGACGAGAATTCTAAATAC
AAGATCCATGCAATGAGCTTAGAAATGCAGAATGAGTGGCTACATATAGGAGATTTTTGC
ATCCCATTAGCACTAAAATGGCGTACTTTAATTCATGATTGGTCGCCAGAACTGCTAAAA
TTTTACCTCAATGCGTTCCAGATGACTCTCCCAGATCAAAGTAATTTAGCAAGATGGGAC
AAAAGTACCGAAAAAACTTGCTACATCTGCGGGGAGGCAGTTGGAACTGATAAGCATTTG
CTGGTGGGATGTAGGGTACTCCTGGAAAGCGGTCAAAACTCGCGTCATCACGATAGGGTT
TTAGAACTCATTGGTGAAGCGGTTAGTCTATCGGTAGCAAGAGCGCAAAAAGAAATAACC
ACGAACCAACGATCAATAGGTTTTGTGAGAGAAGGCACCAGGCCTACAAAATCAAACGTC
AAGCCTTACTCTATTAATAAAGCGTCTTCGGATTGGACTTTAATGATGGACACTAGGAGC
GAGGGTATAACAGACAAATCTCTCTACAACCTGCTAAAAGACTTAGGCCTGCCAAGAACT
AACATCAGTTCATTCTTGGAACGTGAGTCGAAGGCAGCCCTAGCAGGTTCGTTTCATATT
TGGTTAGGTAGAGAGAGGAGCTTGGACAGTGGAGAGGACTTCGCGGCCAGCGTGTCTATT
ATGTATACTATTTGGGTGTTAACGCTCGCCTTTGGCGTAGCGGTAGCAGACGTCAGTCTA
GGATACCAATACAAAAAACCAGCAACAGTTTATGGATTACCTTCTAACTTTGGAAGCCAC
CAGCATAATTACAATGCAGCTTACTCTGGATCCAGTTCAGGCTCTGGGCACAACAATAAT
GTACCTTCAAGTGGCCACTACCAAGGAATAAACTCGATTGGCTCTTCTAGCTTTAACTCT
GCTTCTAATTACAATACACATGGCATAGGTGCAGGATCAACTTCTAGTTCTAAATACAAC
GCTATCGGAAATTCAGGTGCCGGAACAAACGCCGCCTCCAATTATAACGTAATTGGAACT
TTAGAAAATGGTTCAAGCTCAGGATCTAATTACGACATAATTGGTACTACTATCGGAAGT
AGTTTGGGTTCTGAATCTAGTTACAATCTACACGGCAATTCTAATTCCGAACCAAACTCC
AAATATTACGGATCAACTGCTAACCACAATAACCAAGATTATAGTCATTCTAATTTTGCC
TCTTCTTCAAACACAGGGGCTAATCAAAACGTTTACGGTACATCGAGCGGAGTATCTGGA
TCGAATTATAATAATCATGGTTCCGGAAGCGGATCCAATTATAACATCTTAGGTAACCAA
GGATTTAACCAAGGTTCAAATTCAGCCCACAATGCCGGTTATCAAACAACCTACCACAGT
GGCGATACCAGTGGCTTAGATAATATTGGTAACTACTATCAGAGTGCTAGTGCTGCAAAC
CAATTCATTTCTTCAAATCAATATCAATCCTCTGCAGTTCACAACTACCAAGATCACTAC
ACTCAAATACAAAGACAACCAGCACAAATATTTAAGCATTTTTACGTACATGCTGCACCA
GAAGACCCTGAGCCACCAAAGCCACGTCAACCTATTGTACTGCCGCCACCACAGAAACAC
TACAAGGTTATCTTTATTAAAGCTCCTTCACAACAGCCTGCAGCACCACAGATTATTCCC
GTTCCACAACAAAATGAAGAAAAAACTATTGTTTACGTATTGGTTAAAAAACCTGAAGAC
GCCAAGAACATCGTTTTGCCGAAGTTTGAACAGAAACCGCCCGCTAAACCTGAAGTATTT
TTCATTAAATATAACAACAAACAAGATTCTCAAAGTTTAATCGATAACATTGTCAATGAT
TACAACAAAGGAGGAGTTTCAGCTTCGTTTTCTGGTGCCGGTGTATCAGGTCCAGGAATT
AAAGCGCAGAACACTTACACGACCTCTGTAAATGGTGGAATCAATCAAGAATCTGAAAAA
GTGTCTTCTGGTTCCCTAGATTCAATTTCGAATATCAAACCTTATGTTCAATCTGAAAAC
TCATACGTAGCAGGCAGTTCTTCTTTAAGTAATGGAAACAGTCAAGTCTCGGGAGGGTCC
GCTTCAGGCAGCTATGAATCAAATTTTGGAAGTAAACCAAGTAGTTCTTTTGGATCTACA
TCTAAATTCGTATCTACTCTGAGCAACAAGTTTGGTTCCGGATCTTCTTCATCAGCTTCT
GGTTCATCCCCTAGTAGTGTCTTCTCAAACAGCGGTCTAGATAAATACTCTTCTAAGCCT
ATCTCTTCCCTTGGATCAAGTACTACAAACAAAAATTCGGGTATAAGTTATTCAACTTCA
TCAGGTGAAACAAACATCAAACCCTCATCAGGATTAGGAATAGTTGGTTCCTCTAATTCT
GGAAATAATCTTTCGCATGGTTCTGTTTTAGGCTCTGGTAGTCATGACTCAAGTACAAAC
AGCTTTTCTTCTGGTGCAAACCACTTCGACGCATTCTCTAATAGGTTTGGATCAGGTAGC
AGCCAAGCAGCAGGTTCAACTGCCCCCTCAAGCGTTGCAAGTACCTCCGCTCCTGTGTCA
AATTTGGGTGTAAATACAGCATTAAATTCAGGTGCCAGTAGCTTTGGCTACAGTTCCTCC
AACATTGCAAACAGTCAATCTCATAGCTCCAATCTTGGTTCTGGAAGTAACCATGTTAAC
TCCGGTGCTAGTAGTTTTGGAACAGCTAATAGTTATGCTGCTAGCTCAACGGTTTCGCCT
AGCGCAGTAAGCACTTTGTATCCTTCTTCAAACTTTGGTGTTAATTCAGGTAGTCTAGGT
TCCAATGTTGGGTCAGCTTCCAGTGGTTTTGGTTCCAGTTTCAGCACAAGCTCTAGTAGC
TACGGATCAGGTAACAATTATGCAAGCAGCACAACTGTTGCACCTGGTATTGCAAACACA
TATTCTCCTGTTTCAATCTTAGATACAAACACAGGTTTGAATTCCGGATCCAATGGTTTT
GGCTACGGTTCTTCTAAGATTGAAAATAGTCCGTCCCATGGTGCCAACGTAGGCTATAAT
AAATTTGGCTCAGGCTCTAACAATCTCAGCTTTGGTTCTAGTAGCCAAGGATTAGGAAGT
AGTTATGCTGCTGGTTCAACAGTTTCTCCTAGTACAGTAAGCACTTTATCCCCTACTTCT
AGTTTTGGAACAAATTTAGCTAGTTTGGGTTCCACCGTTGGGTCAGGCTCTAGCAGCGCC
GCTTCTAGTTCAAGTCAACTTGGCTCCAGCTCCAGCAGCTTTGCTTCAAGTAGTACTTTC
TCACCTGTTTCTAACGTTAATACAAACTCTGGTATTTTTGGGTCAAGTGCGGTAGGTTCA
GGTCCGTCCAATTTTGGATCTCGCCCTAATAAGTTTAACTATAACAAAGATGTCTCATCT
TCTGGTATAAACTACGAAACTAGCATTTTATCGACAAGTCAAGGCGTCCCACACGAAACA
TACGGACCACCAAAATTCAAAGTATTTTAG

Protein sequence:

MAKDTDVLKTFIQQDENSKYKIHAMSLEMQNEWLHIGDFCIPLALKWRTLIHDWSPELLK
FYLNAFQMTLPDQSNLARWDKSTEKTCYICGEAVGTDKHLLVGCRVLLESGQNSRHHDRV
LELIGEAVSLSVARAQKEITTNQRSIGFVREGTRPTKSNVKPYSINKASSDWTLMMDTRS
EGITDKSLYNLLKDLGLPRTNISSFLERESKAALAGSFHIWLGRERSLDSGEDFAASVSI
MYTIWVLTLAFGVAVADVSLGYQYKKPATVYGLPSNFGSHQHNYNAAYSGSSSGSGHNNN
VPSSGHYQGINSIGSSSFNSASNYNTHGIGAGSTSSSKYNAIGNSGAGTNAASNYNVIGT
LENGSSSGSNYDIIGTTIGSSLGSESSYNLHGNSNSEPNSKYYGSTANHNNQDYSHSNFA
SSSNTGANQNVYGTSSGVSGSNYNNHGSGSGSNYNILGNQGFNQGSNSAHNAGYQTTYHS
GDTSGLDNIGNYYQSASAANQFISSNQYQSSAVHNYQDHYTQIQRQPAQIFKHFYVHAAP
EDPEPPKPRQPIVLPPPQKHYKVIFIKAPSQQPAAPQIIPVPQQNEEKTIVYVLVKKPED
AKNIVLPKFEQKPPAKPEVFFIKYNNKQDSQSLIDNIVNDYNKGGVSASFSGAGVSGPGI
KAQNTYTTSVNGGINQESEKVSSGSLDSISNIKPYVQSENSYVAGSSSLSNGNSQVSGGS
ASGSYESNFGSKPSSSFGSTSKFVSTLSNKFGSGSSSSASGSSPSSVFSNSGLDKYSSKP
ISSLGSSTTNKNSGISYSTSSGETNIKPSSGLGIVGSSNSGNNLSHGSVLGSGSHDSSTN
SFSSGANHFDAFSNRFGSGSSQAAGSTAPSSVASTSAPVSNLGVNTALNSGASSFGYSSS
NIANSQSHSSNLGSGSNHVNSGASSFGTANSYAASSTVSPSAVSTLYPSSNFGVNSGSLG
SNVGSASSGFGSSFSTSSSSYGSGNNYASSTTVAPGIANTYSPVSILDTNTGLNSGSNGF
GYGSSKIENSPSHGANVGYNKFGSGSNNLSFGSSSQGLGSSYAAGSTVSPSTVSTLSPTS
SFGTNLASLGSTVGSGSSSAASSSSQLGSSSSSFASSSTFSPVSNVNTNSGIFGSSAVGS
GPSNFGSRPNKFNYNKDVSSSGINYETSILSTSQGVPHETYGPPKFKVF