MonarchBase - Protein-coding gene

DPGLEAN20460 in OGS1.0

New model in OGS2.0	DPOGS216115
Genomic Position	scaffold1831:+ 2844-21074
	See gene structure
CDS Length	3720
Paired RNAseq reads	1646
Single RNAseq reads	4276
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA009279 (0.0)
Best Drosophila hit	CG34126 (1e-131)
Best Human hit	UHRF1-binding protein 1-like isoform a (1e-90)
Best NR hit (blastp)	PREDICTED: similar to AGAP008379-PA [Tribolium castaneum] (0.0)
Best NR hit (blastx)	PREDICTED: similar to AGAP008379-PA [Tribolium castaneum] (0.0)
GeneOntology terms	GO:0008150 biological_process GO:0005575 cellular_component GO:0000166 nucleotide binding
InterPro families	ND
Orthology group	MCL11231

Nucleotide sequence:

ATGGTAACTATTATAAAAAACCAACTGCTTAAACACTTATCAAGGTACACAAAAAACTTA
AATCCCGAGCAAATATCCTTATCAGCATTACGAGGTTCTGGTGAACTCCAAGACCTGACT
CTGGATGAGGATCTGTTAACTGATCTACTTGAGCTGCCAGGCTGGGTGCGCTTGACTTCC
GCAAGATGCAATCGAGCCTCATTCAGGATTCAATGGACAAAACTGAAGACAGTTCCTATT
GTACTGAATCTAGACGAAGTTCACATATCGCTGGAGGTATGCACGGAGCCTCGTGTCATG
AAACCAGGGGCTGGTGGTGCTATGCCTATACCGGGGAAGTATAGCTATATACATAAGGTG
ATAGACGGTATATCAGTGGCTGTGAACCAAGTACAGATAAACTTCAAATGTGATGCCTTC
ACCAGTAGCGTTCAGATCTCAAGAGTGACGGTCGAGTCTCGGACGCCGGAAGGCAAGAAA
GGTGATCTAAGACTGACTAGAATCAAATGCCCTGACACGGGACAGTTACTTATATTTAAG
GAATTGGAGTGGCAGAGCGCCCGTATAGAGGCGAAGGCTCACGGCGCGGCCGCGGCCAGC
CTGCCCCCGTTAAGGCTTCTCCTGGGGACTACTTACTGTAGGATCGTTATTAAGAAGAGA
CTATCAGACTGCGCGGTTCTTGGGTCCCGCCTGGTGCTGCGCCCTGAGCCGGTGGCGTGG
GCTTTGACTGACGGACAGTTGAGGGCGGCACTCGCCTGTGGAGCGGCTCTCGCTGGACCT
GTCAAAAGGGCCACCGAAATGGCCACTAGGACCAAAGCTGCTCATAAGATAGAGGAGCCC
CGTGAGCAAATCCAGACGCGATCGTCGTCTAGCGAGCGTGACATTCTCGCACGTATGTTC
GCTAAACACGACGTTCGGGAGACTTCTTATCACCTGCTCGCTCCCAGAATAGACCTGCAC
CTGTGTGATGACCCTGGATTGGGTAGGTCTGAAATGCCACAACTAGCCAATGGAGGAGCT
CTTCAAGTGACTCTGGTGAGCATGCAATGTGACCTGTTCCCGTACCATAAAGCATCAGCT
GACAGAAGACATTGGAGAGGCTACAGGGAGGCAGCAACACCTCACAGTCAGTGGCTCTCT
CAAGCTTTATCTTCATTCTGCACCACTCTGTTAGAGACATTGGATCCTAGACCTATTATA
CAGACAAATAAGCCGAGTCAACATGAAACAAAACCGAGCCAAGAACCAGTGTCTAATAAA
GAGAATCATCGTACTACCACCACTCCAACCACTACCACTACCACCACCACCACCACACAA
GTGTCTCCAACGAGGACACGGATTCTACAACAGTTGGGCAGACTCATGACAACCTGTCTC
GTGTTGAGGATAGAGGATTTCACTGTTTATAAGGTGTCTACAGGGTCCAAGTCTCGTGAA
GCCCCCAGACCTTTGGTGAGCGCTGAGAAGGCGACTCTGCCAGGTGACGCTGGTCTCCTT
CACGCTGAACTGACATTCTTCTACTATCCCGGGGACATCTGCTTCCCTGTGCCAGCCCCG
AAGCTCTACGTGCAGCTGAGTCCGGTTCGTGTATCGGTGGACGTGACGAGTCTGTTGTGG
TTGACAGCCTTCCTTCCTCATGTGGGTGCGGCCGTCGTGCACACCGATGACGATTCATCC
TCGTATATGGACGTGCGGGCGGAGGCGATTATGCCCAAGATAGTTTTGGAGGCTGGTCCC
GAGCACGTGTCGCAGCAGAGAGATCGGCCCAAGGAACTGCAGATATGTACCGCCAGGGCT
ACCATCACTAACATAAGGGAGTCACCCAGAGCTAATACAGCGGGGACCCGGGCTGATCTG
GCGTGCATTATAGCGTCGATCCGCGAGCGAGCGCCCCCGAGAGGAAAGTTCCCAACGTCT
ACCCAAGACATGGACCCGGTTCACGAGAACTTCGTGCTACACGCGGAACACTTGGACGAT
ATCGACCGTGGTACAGCCATAAGCCCTGAGCTGTTGTGGCGTGAGAACAGATCTATTTGG
TGTGCGAGAGTGGAACCTCTGTGGGCGGATTTCTGTGGCGCCAGAGCCACGAATTATAAA
CCGTCGCCGTTGTTGGATGCTACGCCGCTTACTGCGTGGATTTACCAGGAGGATGGCTTT
TCTCGTATCTGGGTGATAGCTCGTACATCTGGCCTCAGTGGCCTCCAGCTGCATCACTAC
CAGCTGCTGTTCTTAATGCGTCAGCTGGAACGGATCAGCGAGCTGACCACCTGGATGGCG
CACCAGGCCAGCCGCCTGGAAGATGACCAGGGAACTATGGTGGTGGGTCTAGTAGTGCCG
GCGGTGGAGTTGACGCTTGTTCTTCCCACTAACTGCCCTGGACAAGAGTCTTCTAGGGAT
CTGGATAGTGTTCCTCTAGATTCCTCCAGTCTTAATGATATGAAACTAGGTTCCGAGGCT
ACAATGGCTCCATCTATGTTGGATCGTGATAGCGGTGTTTTGGCGACGCAGGCGTCTGTG
GAGGTGTTCTGTAGTCAGCCCCTACCCGCTGAAGAGATTCCTCCATCCAGCCCCGGGTTG
AGTTTTGGAGGGTTCACGTCCATGCGTCGCGGCCTGACCTCCCTGGTCAGCTCCATAGAC
AGCGCCCTGACCCGTGACGACGGCCGCAGCGACGCCGCGTCCACCGCCAGCTCCGACAGC
GACCGGTACGTGGTGGTGGGACTCGCGGCGGAGTCGCCGGACGACGCGGACGTAGCATTC
AGGGAGTTCGAACACGGTCGTTTGTCCAGCGGCGTGGAGGTGGCTGCCGAGGTGATGGAA
CGATCCTCATCACCGAGCGACCACTCCATCACCAGCTCCTGTAAACGACGAGACGTTATA
TCTACATGCACGATTCGTCTGAACGGCATCCACGTGGTGCAGCAGAGTAACGCCGGCACC
ACCAGCATGAGATTAGCGGCCGATGATGTAAAACTGGACGAGTGCCCCGCCATACCCTGG
GACGAGTTCCAGAATAAGTTCTCTATGAGGGCGCGCGCTTGGTCGGACCTGGACGAGGGG
GAGAAGACTGGTGACGCACCCAAGGTTACACTTAGGCTGCTCAGGACTGAGCTGCCGCGG
ACTGAAGAGGAGAAGAGAACGCCCGGGGCTCTAGCTAGGGCGTCAGAGTTGCTGGAGGGT
CAAATACGCTGTCTGAACCTCTCTCTCGGTATGAGCACGGCACTCGCCCTCTCAGAGTTC
ATAGAGGACGAGGTCATCGCGCCTCCGATGCCTCTAGAGGTTCTAATAGAGAATTTAAAA
CTGCATCTCATAGAGGACAGGCCGACCCGATCCATTTCATCGCCGCCTCCTCAGCCTTTA
GACCTCAACCTGTCCACTATCAAACTGAGCCGGGATTCCTCGGGGGTCGTGCACCTGGGA
CCGCCCACCATCGATGAACCGTCCCCGGAGACGACGTCCCCACAACAGTCCATCGCGGAT
GAAGTACAAAGACTGAACGAAGAGAACGAGGAGCTCAAGAAACGTTTGGCGACACTCAAC
AGAATAGCAGAAGACAATAGGGAATTGAGAGCTAAGCTGGAGGAGGCGTCGGTTCTTCGT
CAATGCGCTCACGCAGCCCAACAGGAAGCAGAGCGACTCCTGGCTGACAAACACGACCTG
TTGCAGACAGTCAGTGTACTTAAGGAGCAATTATCAGGATCATTTCGTAGCAAGAGGTAG

Protein sequence:

MVTIIKNQLLKHLSRYTKNLNPEQISLSALRGSGELQDLTLDEDLLTDLLELPGWVRLTS
ARCNRASFRIQWTKLKTVPIVLNLDEVHISLEVCTEPRVMKPGAGGAMPIPGKYSYIHKV
IDGISVAVNQVQINFKCDAFTSSVQISRVTVESRTPEGKKGDLRLTRIKCPDTGQLLIFK
ELEWQSARIEAKAHGAAAASLPPLRLLLGTTYCRIVIKKRLSDCAVLGSRLVLRPEPVAW
ALTDGQLRAALACGAALAGPVKRATEMATRTKAAHKIEEPREQIQTRSSSSERDILARMF
AKHDVRETSYHLLAPRIDLHLCDDPGLGRSEMPQLANGGALQVTLVSMQCDLFPYHKASA
DRRHWRGYREAATPHSQWLSQALSSFCTTLLETLDPRPIIQTNKPSQHETKPSQEPVSNK
ENHRTTTTPTTTTTTTTTTQVSPTRTRILQQLGRLMTTCLVLRIEDFTVYKVSTGSKSRE
APRPLVSAEKATLPGDAGLLHAELTFFYYPGDICFPVPAPKLYVQLSPVRVSVDVTSLLW
LTAFLPHVGAAVVHTDDDSSSYMDVRAEAIMPKIVLEAGPEHVSQQRDRPKELQICTARA
TITNIRESPRANTAGTRADLACIIASIRERAPPRGKFPTSTQDMDPVHENFVLHAEHLDD
IDRGTAISPELLWRENRSIWCARVEPLWADFCGARATNYKPSPLLDATPLTAWIYQEDGF
SRIWVIARTSGLSGLQLHHYQLLFLMRQLERISELTTWMAHQASRLEDDQGTMVVGLVVP
AVELTLVLPTNCPGQESSRDLDSVPLDSSSLNDMKLGSEATMAPSMLDRDSGVLATQASV
EVFCSQPLPAEEIPPSSPGLSFGGFTSMRRGLTSLVSSIDSALTRDDGRSDAASTASSDS
DRYVVVGLAAESPDDADVAFREFEHGRLSSGVEVAAEVMERSSSPSDHSITSSCKRRDVI
STCTIRLNGIHVVQQSNAGTTSMRLAADDVKLDECPAIPWDEFQNKFSMRARAWSDLDEG
EKTGDAPKVTLRLLRTELPRTEEEKRTPGALARASELLEGQIRCLNLSLGMSTALALSEF
IEDEVIAPPMPLEVLIENLKLHLIEDRPTRSISSPPPQPLDLNLSTIKLSRDSSGVVHLG
PPTIDEPSPETTSPQQSIADEVQRLNEENEELKKRLATLNRIAEDNRELRAKLEEASVLR
QCAHAAQQEAERLLADKHDLLQTVSVLKEQLSGSFRSKR