MonarchBase - Protein-coding gene

DPGLEAN18790 in OGS1.0

New model in OGS2.0	DPOGS214673
Genomic Position	scaffold1015:+ 44734-51885
	See gene structure
CDS Length	1494
Paired RNAseq reads	1224
Single RNAseq reads	3732
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA001947 (5e-55)
Best Drosophila hit	hepatocyte nuclear factor 4, isoform D (2e-132)
Best Human hit	hepatocyte nuclear factor 4-gamma (2e-122)
Best NR hit (blastp)	SXR-like nuclear receptor [Lymantria dispar] (0.0)
Best NR hit (blastx)	SXR-like nuclear receptor [Lymantria dispar] (0.0)
GeneOntology terms	GO:0005634 nucleus GO:0003700 sequence-specific DNA binding transcription factor activity GO:0004879 ligand-dependent nuclear receptor activity GO:0007492 endoderm development GO:0007498 mesoderm development GO:0008610 lipid biosynthetic process GO:0008270 zinc ion binding GO:0003707 steroid hormone receptor activity GO:0043565 sequence-specific DNA binding GO:0006355 regulation of transcription, DNA-dependent GO:0016042 lipid catabolic process GO:0034440 lipid oxidation
InterPro families	IPR000536 Nuclear hormone receptor, ligand-binding, core IPR001628 Zinc finger, nuclear hormone receptor-type IPR001723 Steroid hormone receptor IPR000003 Retinoid X receptor IPR008946 Nuclear hormone receptor, ligand-binding IPR013088 Zinc finger, NHR/GATA-type
Orthology group	MCL12664

Nucleotide sequence:

ATGCCAGTGCTCGGCGTCGGCATGGCTCAGGAAATCGGACTGCGCTACTGTCCCACTACT
GATTACATTCTACCGGGGGGGTACTGGGAGAAGAACTCCGTCCAGTATAACATGACCTAC
CACAGGCAGCACGACGATGCACAGTGTAACAACACAGTGTCATACAACACAGATAGTGAT
ATGCAGCTTGAAACGAGCAGTAGTGAGGCGAGTGCTAGCTCGACCGTGCTGTCCCAACAC
TGCGCTATATGTGGAGACCGAGCCACCGGCAAGCACTATGGAGCGTCCTCGTGCGACGGA
TGCAAGGGGTTCTTCAGACGTAGCGTCAGAAAAAACCATCTCTATACATGCAGGTTCAGC
AGGAATTGTGTAGTTGACAAGGACAAACGAAATCAGTGCAGATATTGCAGACTAAGGAAG
TGCTTTAAGGCCGGCATGAAGAAAGAGGCGGTCCAGAACGAACGTGATCGTATTAACTGC
AGACGGCCGTCTTACGAGGAGCCGGCTCAGGCGAACGGACTGTCAGTCGTGTCGCTGTTG
AACGCTGAACTACTCAGTAGGAAAGTCATTGACGAGACAAACAACGTAACAGACGCCGAG
ATAAACAACCGGAAGTTGGCTAAGATCAATGACGTGTGTGACTCCATCAAACAGCAACTA
CTCATTCTGGTGGAGTGGGCCAAGTACATACCCGCCTTCACGGAGCTGCACTTGGACGAT
CAGGTGGCGCTGCTGCGGGCCCACGCTGGCGAACACCTGCTGCTGGGTTGTGCTCGTCGG
TCGCTCCACCTGCGAGACGTGCTGCTCCTGGGAAACAACTGCATCATCACCAAACACCAT
CTCGACGGCAGAATGGATATAGACATCAGCATGATCGGCATGAGGGTGATGGATGAGATC
GTCAAACCGCTCCGGGAGATCGACATCGACGACACGGAGTTCGCCTGCCTTAAGGCCATC
GTCTTCTTCGATCCGAACGCCAAGGGTCTCTCTCAACCGCAGAAGATCAAGCAACTCCGT
TACCAGATCCAAATCAACCTGGAGGACTACATCAGCGACCGTCAATACGACGGGCGCGGG
CGGTTCGGCGAACTGCTGCTGTGTCTGCCGCCGCTGCAGAGCATCACCTGGCAGATGATC
GAGCAGATACAGTTCGCCAAACTGTTCGGAGTCGCGCACATCGACAGCCTGCTGCAGGAG
ATGCTGTTGGGAGGTAGGAAGACCCTAGAGGACGACTTACAACACACGCATAGAGCATTC
GGAGCATCAACAGAAGCGACGCTCGACGAGAGTTCAGCGGGCGGGGAGGGGACCGCGGGG
GTCGGGGGCGACTCGGCGGCCGCTGGGGTCGCGGGTGGACACGCCTCGCCACCACTCGTG
CCCCAACTGCCTCCCGGTGAACACGTGTTTGACGCGACCTTCAAACAGGAGCCCAACATG
AGTCCAGAACATACAGCCCGAGTACTGAAGACCTCGGATATAACACTGTTATAG

Protein sequence:

MPVLGVGMAQEIGLRYCPTTDYILPGGYWEKNSVQYNMTYHRQHDDAQCNNTVSYNTDSD
MQLETSSSEASASSTVLSQHCAICGDRATGKHYGASSCDGCKGFFRRSVRKNHLYTCRFS
RNCVVDKDKRNQCRYCRLRKCFKAGMKKEAVQNERDRINCRRPSYEEPAQANGLSVVSLL
NAELLSRKVIDETNNVTDAEINNRKLAKINDVCDSIKQQLLILVEWAKYIPAFTELHLDD
QVALLRAHAGEHLLLGCARRSLHLRDVLLLGNNCIITKHHLDGRMDIDISMIGMRVMDEI
VKPLREIDIDDTEFACLKAIVFFDPNAKGLSQPQKIKQLRYQIQINLEDYISDRQYDGRG
RFGELLLCLPPLQSITWQMIEQIQFAKLFGVAHIDSLLQEMLLGGRKTLEDDLQHTHRAF
GASTEATLDESSAGGEGTAGVGGDSAAAGVAGGHASPPLVPQLPPGEHVFDATFKQEPNM
SPEHTARVLKTSDITLL