MonarchBase - Protein-coding gene

DPGLEAN19952 in OGS1.0

New model in OGS2.0	DPOGS205197
Genomic Position	scaffold529:- 33841-40379
	See gene structure
CDS Length	3429
Paired RNAseq reads	295
Single RNAseq reads	1056
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA008795 (4e-50)
Best Drosophila hit	crooked legs, isoform B (2e-27)
Best Human hit	PREDICTED: zinc finger protein 729 (1e-36)
Best NR hit (blastp)	hypothetical protein BRAFLDRAFT_58764 [Branchiostoma floridae] (2e-57)
Best NR hit (blastx)	PREDICTED: similar to mCG7830 [Acyrthosiphon pisum] (4e-67)
GeneOntology terms	GO:0005634 nucleus GO:0046872 metal ion binding GO:0005575 cellular_component GO:0003674 molecular_function GO:0008150 biological_process
InterPro families	IPR012934 Zinc finger, AD-type IPR015880 Zinc finger, C2H2-like IPR013087 Zinc finger, C2H2-type/integrase, DNA-binding IPR007087 Zinc finger, C2H2-type
Orthology group	MCL20866

Nucleotide sequence:

ATGGAATTTGACGAGATCGTCGTCAAAGACACGCCCGGTTTGTGCCGGTGTTGTTTGTCT
GAAGGATGTTACAAGGACTTGAGCACTGAGTATCCTTGGATGGACGACACCGAAATATAC
GCCGATATGTTGTTGGAATGCTTTGATGTTAGCATATCCCAGCACATTGAAGGTCCAAAC
GGCCCCAACCGATTAATTTGTGAAGTGTGCATCACAAGGCTGAGAGATGCATGTAATTTT
AAAAAACAAGTACTGGATTCGGAGAAGAAGTTTATAGACATGGTTGGTCGTGGTGCATTT
AAAACTAAAGTTCTGCTGTATCCGGAACAGATGAAGTCGGAGAGTCAGGAAGTGGCAGCC
GATGAAGCAGAGATTGAATATCTTGATGAGGACGTCGATTATGATGATATACCACTCAAC
GAACTGGCAACACCGTCGGTATCAGAAGACATAACAGTGGCAACGTTACCAGTAGCGAAA
CGGGGTAGACCAAAAAAGACCATGAAAAATGAGAAGAAAAAAATTGATGTGAAATTAAAG
ACCAAATCAAAAGGTTCAATGCCAAAGATGGCGTCTGAGGCATTGAGTAAGTCCTTGACA
GCGACAAAGCTGAATAGGCTAGTGAAACTGAACGCTATAGCGGTCCTGGAGTGCTCCAAA
GTGGTGCCATTCAAATGGCACCGGCACAGCTATTTGTGTTTTTATTGCCATCTGAGTTTC
AAAACTATACAAACCCTGAAAGATCACACTAGCGACGGACACAAAGACTCCAACGTGAAA
TCAGCTGTTTCATATTTGAAAAGCGATGAGAAAGTCAAAATTGATATTTCCAATATGGGA
TGCCGTATATGTGATGATGATTTCGATAGACTGGATGATCTGATCGAACACTTGGGGACG
GTTCACGGCAGGTCGTTCTATGATGGTCACGGCTATGGCTTGATCCCTTACAAATTGTCG
GACGACAGATACGCTTGCGCTATCTGCAAGCAGGTTTTCCAGTACTTCATCAAGCTGAAC
CAGCACATGAACGAGCACTACGGTAATTTCGTGTGCGACGTCTGCGGCAAGTCTTTTCTG
AATAAGGACAGACTGCGCTGTCACATAAGGAGTCACGGTTCCGGTTTTCAGTGTGCTCTC
TGTTTGGAGAATTTCGATTCTCTAACCCAAAAAATTAATCACGAATCCTCGATACATAAT
AAGAAACGCATAATAAGATGCAATTTTTGCCCGCAAACTTTCAATAACTATTCGTTGCGT
AAAGTTCATCATAGTGCTGTTCACAATGTTGCCATATCAGTCACAAATTGCCCGGTCTGT
GGTAAAAAATTCCATATAGCCAGCAAAATGTGGTCTCACATGAAGGAAGTTCACGTCAGG
GAGAAGAATTTCTCGTGCAGTCTCTGCGAACAGAGATTCTTTTCTCGCACTCACGTCCAG
AAGCACATGATCAAACATATAGGAGAAAAAGTCCATAAGTGCGACGTATGCAAGAAGTCT
TACGCTAGGAAACAGACCTTGAGAGATCACGTGAGGATCCATCACAACGACAAAAAACAC
GTGTGCTCGATATGTGGCCACGCCTTCGTGCAACATAACAGTAAAAATCAAAAAGGCTGT
CAATCGTCGTCAATGCGTAGGAGAAAGAATCTTCAGATGTTGTTTAATAACACCACAGTG
ATACCCTTCAAATGGAGAGGGAAATATCTCTGTTTTTATTGCAGCAAAAATATAACGGAC
TATTCGGAGTTACGTAAACATACAAAATCACATGGGCCTTGCTCCACTGACGATCACTCG
CTCAAAGTGTTAAAGGGTGGGAAGAATATGGAAATTAAAATTGACGTATCGGATATTTGT
TGTGAGGTTTGCAACGAAGAATTTAAAATTCTGGACGATGTATTGGATCATCTGTGCGCG
AAACATAAATTTGAATACGACAGAAGCGTGGAAATGGCGATTGAAGAGTATCGCTTAATG
GATTTAAGCTGTCTGATATGCAAAGAGAAATTCGCGTATTTCGGTTATTTAGTGTCCCAT
GTCAACAATCACCATCCGAAGAACTGTCTCATATGCGACAAATGCGAACAGAAATTCAAT
AAGAAAAGGGATTTATTTTCCCACATAAAAAACTACCATCGAGACGGAGGATACAAGTGC
GATATTTGTCCGCAGAACTTTAGTTCTCTAAATATCCTGCGGAAACATAGAAGCAATCGA
CATTTCACCAGATGCAACATCTGCCAGCTGAGATTGCCGTCAGCTGTTCTTAAACAGAAG
CATATAGAATTGGAACATCCTGATGACGGATCGTTGCAATGTGATACGTGCTATAAGGAC
TTCCACACTAAGCAAGGTCTTAAAATGCACTCGAGGAAATGTAAAGGCGATATCTTCGAC
GTTGCTATCAAGAAGGAGGAATGCGACGGTCTTGACATTGATCAGGAGGAGATAAAACGA
CCGAGTGTCAAACAGATCCGCGAAAACATCGTGATAGTCATAAATATGTCGACAGCTATA
CCGTTTAATTTCTACAAGAATAAATTCAATTGCTTCTACTGTTCCAAAGACTTCACCGAT
TCTGATTCAATGCGGGAACATACTATTATCGAGCATCCGATTTGCGATGTCAAAGAAAAG
TGTATTAGAAAATGCAGGGAATCGGTTGCTTGTGTGAAAATAGATATTTCGAGTTTAGCT
TGTAAGGTGTGCTTTGAAACGATGGATAGTTTAGACGTTTTGTTAGATCATCTCATAACG
AAACATGAAGCTAATTACGACAAATCTATCACGACTTGCCTCCAACCTTACAAACTCATA
AAAGATCATATGGCGTGCCCCAACTGTCCAACCGAGGTGTTCAGATTCTTTGGCACGTTG
CTTAAACACGTTAACAACAAACACACAGATAACAATATTATATGCGTGTATTGCGGGCAG
ACTTTTCGGCGAGATCAAAATCTACGCGTTCATATATGGAGACATCACAGGGACGGTAGA
TTCAAATGCAACATATGCGGTGCGGATTGCAATATACCGTCTAGGCTGTACATGCATATG
GCGAAAGCTCATGGCGTTAAAGCGGCGAAGTGTCCTAAATGCTCGGAATCTTTCGCCACC
CAGTATCTAAGGCAGAAGCATCTTATAGAAGCTCACGATTCTGGCCACAAGTGCACATAT
TGCGGCAAATTGTTTACGCGGAATTCATTTATGCGGGATCACATACGTCGGACGCATCTC
AAGGAGAAGAATGTCGAATGTTCGATTTGCAATATGAAGTTTTTCAACAATATTCTGTTG
CGACGTCACATGGTTAAACATAGCGGGGAGAAAAATTTTCATTGTGACATGTGTGGCGAA
CGATTTTATTGGAGGAAGAGCTTGAGAACTCACATGGCGAGGCACAGCAAGCATAATCCT
GTCACATAG

Protein sequence:

MEFDEIVVKDTPGLCRCCLSEGCYKDLSTEYPWMDDTEIYADMLLECFDVSISQHIEGPN
GPNRLICEVCITRLRDACNFKKQVLDSEKKFIDMVGRGAFKTKVLLYPEQMKSESQEVAA
DEAEIEYLDEDVDYDDIPLNELATPSVSEDITVATLPVAKRGRPKKTMKNEKKKIDVKLK
TKSKGSMPKMASEALSKSLTATKLNRLVKLNAIAVLECSKVVPFKWHRHSYLCFYCHLSF
KTIQTLKDHTSDGHKDSNVKSAVSYLKSDEKVKIDISNMGCRICDDDFDRLDDLIEHLGT
VHGRSFYDGHGYGLIPYKLSDDRYACAICKQVFQYFIKLNQHMNEHYGNFVCDVCGKSFL
NKDRLRCHIRSHGSGFQCALCLENFDSLTQKINHESSIHNKKRIIRCNFCPQTFNNYSLR
KVHHSAVHNVAISVTNCPVCGKKFHIASKMWSHMKEVHVREKNFSCSLCEQRFFSRTHVQ
KHMIKHIGEKVHKCDVCKKSYARKQTLRDHVRIHHNDKKHVCSICGHAFVQHNSKNQKGC
QSSSMRRRKNLQMLFNNTTVIPFKWRGKYLCFYCSKNITDYSELRKHTKSHGPCSTDDHS
LKVLKGGKNMEIKIDVSDICCEVCNEEFKILDDVLDHLCAKHKFEYDRSVEMAIEEYRLM
DLSCLICKEKFAYFGYLVSHVNNHHPKNCLICDKCEQKFNKKRDLFSHIKNYHRDGGYKC
DICPQNFSSLNILRKHRSNRHFTRCNICQLRLPSAVLKQKHIELEHPDDGSLQCDTCYKD
FHTKQGLKMHSRKCKGDIFDVAIKKEECDGLDIDQEEIKRPSVKQIRENIVIVINMSTAI
PFNFYKNKFNCFYCSKDFTDSDSMREHTIIEHPICDVKEKCIRKCRESVACVKIDISSLA
CKVCFETMDSLDVLLDHLITKHEANYDKSITTCLQPYKLIKDHMACPNCPTEVFRFFGTL
LKHVNNKHTDNNIICVYCGQTFRRDQNLRVHIWRHHRDGRFKCNICGADCNIPSRLYMHM
AKAHGVKAAKCPKCSESFATQYLRQKHLIEAHDSGHKCTYCGKLFTRNSFMRDHIRRTHL
KEKNVECSICNMKFFNNILLRRHMVKHSGEKNFHCDMCGERFYWRKSLRTHMARHSKHNP
VT