MonarchBase - Protein-coding gene

DPGLEAN16823 in OGS1.0

New model in OGS2.0	DPOGS205298
Genomic Position	scaffold791:+ 17658-30882
	See gene structure
CDS Length	3687
Paired RNAseq reads	2869
Single RNAseq reads	6698
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA011039 (0.0)
Best Drosophila hit	Chromosome-associated protein, isoform A (0.0)
Best Human hit	structural maintenance of chromosomes protein 3 (0.0)
Best NR hit (blastp)	structural maintenance of chromosomes smc3 [Aedes aegypti] (0.0)
Best NR hit (blastx)	structural maintenance of chromosomes smc3 [Aedes aegypti] (0.0)
GeneOntology terms	GO:0008278 cohesin complex GO:0007062 sister chromatid cohesion GO:0005515 protein binding GO:0005524 ATP binding
InterPro families	IPR010935 SMCs flexible hinge IPR009053 Prefoldin IPR003395 RecF/RecN/SMC
Orthology group	MCL12573

Nucleotide sequence:

ATGCATATTAAACAGGTGATTATTCAAGGGTTTAAGAGTTATCGTGAACAGATAGTGGTA
GAACCCTTTGATAAACGGCACAATGTAGTTGTTGGACGTAATGGTTCCGGAAAAAGTAAT
TTCTTCCATGCTATCCAGTTTGTACTTAGCGATGAGTTCTCTCATCTCAGGCCGGAGCAA
CGTCTGGCGCTACTACATGAAGGCACTGGACCTCGGGTGATATCAGCTTTTGTTGAAATC
ATTTTTGACAACTCTGATAATCGAATTCCAATTGAAAAGGATGAGATTTTCCTCCGACGA
GTCATTGGTTCTAAGAAAGATCAATTTTTTCTGAATAAGAAAGTTGTGCCAAGATCAGAA
GTACTAAATCTACTGGAAAGCGCTGGTCTCTCCAACTCTAATCCATATTACATTGTGAAA
CAAGGAAAGATTAATCAAATGGCAGTAGCCCCTGATTCGCACAGATTGAAATTGTTAAGA
GAAGTAGCTGGTACAAGGGTTTACGATGAGAGGAGAGAGGAATCTGTTACCATATTGAAA
GAAACTGTCGGGAAGGTTGAAAAAATTAACGATTTCCTCCAAACCATTGAAGAGAGGCTG
AAAACGCTTGAAGAGGAGAAAGAGGAATTGAAAGAATATCAGAAATGGGATCGCGCAAGA
CGTGTCCTTGAGTTTATAATACATGACACAGAACACAGAGAAAACAAACGGAAACTGGAA
GATTTAGAGAAAATGCGTGCCAACAGTGGCAAAGAACAACAACATTATGCCGACATGGTG
AGAGAGGCTCAAGATCATGTGAGAGAAGCCAACAGAAAACTAAAAGAAGCCAGAAAAGAT
GTGGCAGCAACTCGTGAAGAGAAGGACATACTTTCAACTGAACAACAGCAGTTATTGAGA
GAAAAGACGAAGCTCGAGCTCGCCATCAAAGACTTGACAGACGATGTTGACGGAGATAAC
AAGTCTAAGGGTTTGAGAGGCACTGATCACAGCAGAATCGCCTTGCGGGCCTGTGGCTCA
GCAGAAGAGCGGCGCGTGGGACAACCCGAAAGAGCGGAAGCTGAGCTGGAGCGTCTCCGT
CAGCAGATTTCGGAGAAAGAACGCGAATTAGAGGAACTGAAGCCCAAGTACGAGGAGATG
AAGGCGCGGGAGGAAGAATGTACGCGAGCGCTCGCCCTGAACCAACAGAAACGACAAGAG
CTATACGCCAAGCAAGGCCGCGGCACACAGTTTACATCCAAACAAGACAGAGATCGATGG
ATAGAGAAAGAGCTCAAATCACTGAACAAACAAATAAAAGACAAGAAGGACCACGAGAAC
AAACTACGCGAGGATCTGAGGAGGGACGCGACAAAGCTGACGGAACTGGAGAAGAGAATC
GAAGAAATGACTAAGGAAATGGAACGACAAAGGGTCGCCATCGACGAACACAACAAGCAG
TACTACGAGTGTAAGAAGAAAAAGGATCAGGAACAAAGCACTAGGAACGAGTTATGGCGT
AAGGAGACCACATTAACTCAGAATTTGTCTTCCTTAAAAGAAGATCTATCTAAAGCCGAT
CAAGCGCTTCGCTCCATGGCTGGAAAGCCCATACTAAACGGCCGAGACAGTGTTAGGAAA
GTTCTAGAAACTTTCCAAGAACGTGGCGGAGAGTGGGCCAAGATAGCCACACAATACTAT
GGCCCCGTTATAGAAAACTTTAGCTGCGACAAAACTATATACACAGCTGTTGAGGTTACA
GCCGGCAACAGACTGTTCCATCATATAGTGGAGTCGGACACCGTCGGTACTAAAATATTA
AAGGAGATGAATCGTCAAAGCCTCCCCGGCGAGGTGACCTTCATGCCCCTCAATAGACTA
CAAGTCAGGGACATGGTTTATCCTAATGATAACAACGCCATAGCCATGGTTCAGAAATTG
AAGTATGATCCGAAGTATGCAAAGGCTATGAAGTATATCTTCGGTAAGACGCTTATATGC
AGGAACTTGGAGTGTGCCACCGAGCTCGGGAAACAGTTTCACCTGGACTGTGTCACTCTA
GAGGGGGATCAGGTATCATCGAAAGGGTCACTCACTGGTGGATATTTTAATCAATCCCGA
TCCCGTCTGGAGATGCAGAAGACGAGATCGGAATTGATGGAGCAAATAACATCGCTGGAC
GAAGAGTTGAACACCTTGAGACAGGAACTCAATAAAACGGAGACCAGCATTAATACTATC
GTATCTGAAATGCAAAGGACTGAAACGAAACAGGGGAAGGCTAAAGATATATTTGACAAA
GTCAAAGCTGATATTCGTTTAATGAAGGAGGAGCTTGCGTCCATAGAACGATTCCGCGGA
CCTAAAGAAAGATCGTTGGCACAGTGTAGATCCAGTCTGGAAGCCATGCAGGCAACCAAG
GAAGGGCTCGAGTCAGAATTACACCAGGAACTCATGGAGCAGCTATCTATAGCTGATCAA
GGTAAGGTCGACGAACTGAACGACGCCATCAGACGTCTGACACAAGAGAACAAAGAGGCC
TTCAGTCAGAGAATGAACCTTGAAGCCACCAAGAACAAACTAGAAAACCTGCTCACTAAC
AACCTTATACGTCGTAAGGACGAGCTAGTACAAGCGCTTCAAGAGATCTCAGTGGAAGAT
CGCAAACGTCGTTTGGCGACAAGTAAGGCGGATCTCACCGGCGCTGAGAAAAGAATCAAA
CAGATCAATAAGGACCTCGAAGATGTCGAGAGAAAGGTCCAAGCCGCGGTCAAGACGGAA
AAGGCCCTCAAACTGGATCTAGACAAATGGAGGAATAAGGAGAAAGAAGCACAAGACAAA
ATGGAAGAAGATGCCAAGGGTCTGGAAAAGATGGCGTCCAAAGAAGTGTTATTACAAGAG
AAAATACAAGAGTCATTGGACAAAATAGCGGCCCTAGGAACCCTGCCTAACGCTCCCGAA
CTACATTCTAAGTACCAGAAACTATCTTTAAAACAGCTATTCAAAGAACTGGAGAAGGCC
AACCAACATCTCAAGAAATACAACCACGTGAATAAGAAAGCTTTGGATCAGTTTATAAGC
TTTTCGGAACAGAAAGAAAAACTGTACAAGAGGAAGGAGGAACTCGATATTGGTGGCGAA
AAGATCCGTGAGCTCATCGAGACGTTGGAACATAGGAAATTAGAAGCGATACAGTTCACG
TTCAAGCAAGTCAGCAAGAATTTCACTGAGGTGTTCAAAAAGTTGGTCCCTCAAGGCAGA
GGGAGTCTTATAATGAGAGTGGCGCCCGACGAGGGTCAAGATATACCGGATCGAGCTAAC
GCGGACCCGTTCACTGGCGTGGGTATCAAAGTATCGTTCACTGGAGGTGAAGGTGACATG
AGAGAAATGAACCAATTGTCCGGAGGTCAGAAGTCACTGGTCGCCCTAGCACTCATCTTC
GCCATACAGAAATGTGATCCAGCACCTTTCTACTTGTTCGACGAAATTGATCAGGCTCTA
GACGCTCAGCATCGTAAGGCGATCGCGAACATGATCCACGAGCTGTCGTCGTCGGCTCAG
TTCATAACGACAACTTTCCGTCCGGAGTTGTTGGAACACGCCCACAAGTTCTACGGAGTC
AAGTTCCGGAACAAAGTGTCGCACGTGGAGTGCGTCACGCGCGACGAGGCCAGGGACTTC
GTAGAGGACAGTGCTACGCACGCGTAG

Protein sequence:

MHIKQVIIQGFKSYREQIVVEPFDKRHNVVVGRNGSGKSNFFHAIQFVLSDEFSHLRPEQ
RLALLHEGTGPRVISAFVEIIFDNSDNRIPIEKDEIFLRRVIGSKKDQFFLNKKVVPRSE
VLNLLESAGLSNSNPYYIVKQGKINQMAVAPDSHRLKLLREVAGTRVYDERREESVTILK
ETVGKVEKINDFLQTIEERLKTLEEEKEELKEYQKWDRARRVLEFIIHDTEHRENKRKLE
DLEKMRANSGKEQQHYADMVREAQDHVREANRKLKEARKDVAATREEKDILSTEQQQLLR
EKTKLELAIKDLTDDVDGDNKSKGLRGTDHSRIALRACGSAEERRVGQPERAEAELERLR
QQISEKERELEELKPKYEEMKAREEECTRALALNQQKRQELYAKQGRGTQFTSKQDRDRW
IEKELKSLNKQIKDKKDHENKLREDLRRDATKLTELEKRIEEMTKEMERQRVAIDEHNKQ
YYECKKKKDQEQSTRNELWRKETTLTQNLSSLKEDLSKADQALRSMAGKPILNGRDSVRK
VLETFQERGGEWAKIATQYYGPVIENFSCDKTIYTAVEVTAGNRLFHHIVESDTVGTKIL
KEMNRQSLPGEVTFMPLNRLQVRDMVYPNDNNAIAMVQKLKYDPKYAKAMKYIFGKTLIC
RNLECATELGKQFHLDCVTLEGDQVSSKGSLTGGYFNQSRSRLEMQKTRSELMEQITSLD
EELNTLRQELNKTETSINTIVSEMQRTETKQGKAKDIFDKVKADIRLMKEELASIERFRG
PKERSLAQCRSSLEAMQATKEGLESELHQELMEQLSIADQGKVDELNDAIRRLTQENKEA
FSQRMNLEATKNKLENLLTNNLIRRKDELVQALQEISVEDRKRRLATSKADLTGAEKRIK
QINKDLEDVERKVQAAVKTEKALKLDLDKWRNKEKEAQDKMEEDAKGLEKMASKEVLLQE
KIQESLDKIAALGTLPNAPELHSKYQKLSLKQLFKELEKANQHLKKYNHVNKKALDQFIS
FSEQKEKLYKRKEELDIGGEKIRELIETLEHRKLEAIQFTFKQVSKNFTEVFKKLVPQGR
GSLIMRVAPDEGQDIPDRANADPFTGVGIKVSFTGGEGDMREMNQLSGGQKSLVALALIF
AIQKCDPAPFYLFDEIDQALDAQHRKAIANMIHELSSSAQFITTTFRPELLEHAHKFYGV
KFRNKVSHVECVTRDEARDFVEDSATHA