MonarchBase - Protein-coding gene

DPGLEAN18776 in OGS1.0

New model in OGS2.0	DPOGS204414
Genomic Position	scaffold2861:- 7735-12373
	See gene structure
CDS Length	1776
Paired RNAseq reads	4014
Single RNAseq reads	9010
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA007719 (6e-71)
Best Drosophila hit	host cell factor, isoform D (2e-51)
Best Human hit	host cell factor 1 (6e-52)
Best NR hit (blastp)	AGAP004774-PA [Anopheles gambiae str. PEST] (1e-69)
Best NR hit (blastx)	host cell factor C1 [Aedes aegypti] (8e-54)
GeneOntology terms	GO:0003713 transcription coactivator activity GO:0005515 protein binding GO:0005634 nucleus GO:0005737 cytoplasm GO:0042802 identical protein binding GO:0043254 regulation of protein complex assembly GO:0045449 regulation of transcription GO:0070688 MLL5-L complex GO:0071339 MLL1 complex
InterPro families	IPR008957 Fibronectin type III domain IPR013783 Immunoglobulin-like fold IPR003961 Fibronectin, type III
Orthology group	MCL24240

Nucleotide sequence:

ATGGAGTCGGACTCTGCTCTTCACGGTGATGTTCCCGATGGCGCGGAAATGTCCCCTTTA
GAAGAAAACCCAACAGAGAGTTTAGAAGAAAATGGTGATAACAATGGAGCAATTGAGGAA
TCGGAATCCGCAGCTACAGAAGAAGACGCAGCAACAAATGGTGGTGCTCCAACTAGTAGC
AGTGATGTTTTGGATCTAGAACCTGCTGGACAAGCTGTAGAACATGAAGAGCCCCTTCCG
CATCAAGCTAATGCTGAAGCTGAAGAAGAAATGGACATCGATGAAACTACCCCGGGAACT
GTTGATGAATCAGCATATATCGGAGACAATTGCTTATCTACTCCGGCGGAAACTGAAGAC
AATTCACCACAAGAGGAGCACTCGTTACTTAAGGATCACATGTTAGAAGGCGAGGGTGAT
GGAGAGGGTCTTGAAGGAGCCCAGGAGGAGTCTCCCGACCAATCTATCAGTTCGGCTTTA
CCTATTGAAGGTGACGGAGCCCCTATCATACAGGATGAAGAATCCAGTACAATGGATGAA
GATATGGGCGGTGGCGAGGGTGTAGCCAGCAGTGACGATGTCAATGACATAAGCAGTGCT
GCAGCAGAAGTTCTAAGCACCGGCATCAGTTCAAGTACCCAAGAAGGTGCAGACATTACA
AGCAGTGGGCAAACTGAGGCGGCCCTGATATCATCTACGGCTAACGGCCCTGCATTACTG
CATTCCTTCTCTGTACTGCCTCAACAGCAGCAAGCTAATGAATTCAGTGATGCTGATACA
TCTGAGATGGAAGGTGCCGCGGACACAATGCCCTCAGTCAGTGAGTCAATGCCATTGCTC
ACTATGACGGCTAATGGATCAGCAATACTTTCACCAAATTTACTCCAAGGTGATGAAAGT
GGAGCTGGTGTGTCCTCGTCGGTGGCGGGACTCAGTTCTGAGAGCGGTGCCGGCGAGGGT
GAAGGCGCTGTGAGCAGTTCCGGCGCCGCTCAATCCGCCAAAGGCGCCCCACCCCTACCG
CCCACAGACGCCGCACATGCGCTCGCTACTCTCGCTAGTGCAGCGCTGCATCACCAACAT
GAACAGAATGAACCAGAAGACCAGAAGCCACAAAACGATGAGGATGTCTGGTACACGGTG
GGCTTTGTTAAAGGAACCACATTCACAGTACAAAATTACATATCCGATGCAAACGTGGAT
CTGTCGAGTCTCTCCTTGGACAGTCTACCTGACCTGTCCAATTTACCGACCACCCCGCTG
GAACACGGCACGGCATATAAGTTTAGAATTGCTGCCATCAACTCGTGCGGGAAAGGAGAA
TTCAGTGAAGAGGCGGCGTTCAAGACCTGCCTGCCAGGTTTCCCGGGAGCGCCGTCCGCC
ATCAAGATATCCAAGTCGGTGGAAGGCGCTCACCTCTCATGGGAGCCGCCGCAAGTCGCC
GCTGATGGAATCTTTGAGTACTCAGTATACCTGGCTGTGCGATCTAATCCACAACCAAAG
GAGGCCTCTAAGTCTCAGTTGGCGTTCGTGCGCGTGTACTGCGGCAAGGCGAACACGTGT
GTGGTGGGTCAGGCTTCGCTGGGCGCGGCGCACGTGGACTCCTCCACCAAGCCCGCCATC
ATCTTCAGGATCGCGGCCAGGAACGACAAGGGATACGGACCAGCCACTCAGGTCAGGTGG
CTTCAGGATATAAAATCTACGGGAGTGAAGAGAGCCGGTGAAGGCCGGCTGCCAGGCGCC
TCGCCTTCAAAGCAACCAAAACAACTGCTGTACTAA

Protein sequence:

MESDSALHGDVPDGAEMSPLEENPTESLEENGDNNGAIEESESAATEEDAATNGGAPTSS
SDVLDLEPAGQAVEHEEPLPHQANAEAEEEMDIDETTPGTVDESAYIGDNCLSTPAETED
NSPQEEHSLLKDHMLEGEGDGEGLEGAQEESPDQSISSALPIEGDGAPIIQDEESSTMDE
DMGGGEGVASSDDVNDISSAAAEVLSTGISSSTQEGADITSSGQTEAALISSTANGPALL
HSFSVLPQQQQANEFSDADTSEMEGAADTMPSVSESMPLLTMTANGSAILSPNLLQGDES
GAGVSSSVAGLSSESGAGEGEGAVSSSGAAQSAKGAPPLPPTDAAHALATLASAALHHQH
EQNEPEDQKPQNDEDVWYTVGFVKGTTFTVQNYISDANVDLSSLSLDSLPDLSNLPTTPL
EHGTAYKFRIAAINSCGKGEFSEEAAFKTCLPGFPGAPSAIKISKSVEGAHLSWEPPQVA
ADGIFEYSVYLAVRSNPQPKEASKSQLAFVRVYCGKANTCVVGQASLGAAHVDSSTKPAI
IFRIAARNDKGYGPATQVRWLQDIKSTGVKRAGEGRLPGASPSKQPKQLLY