MonarchBase - Protein-coding gene

DPGLEAN10925 in OGS1.0

New model in OGS2.0	DPOGS204326
Genomic Position	scaffold236:- 15057-25646
	See gene structure
CDS Length	3600
Paired RNAseq reads	2035
Single RNAseq reads	4726
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA000001 (2e-89)
Best Drosophila hit	phtf (3e-74)
Best Human hit	putative homeodomain transcription factor 2 isoform 2 (3e-54)
Best NR hit (blastp)	hypothetical protein AaeL_AAEL010838 [Aedes aegypti] (7e-104)
Best NR hit (blastx)	hypothetical protein AaeL_AAEL010838 [Aedes aegypti] (7e-80)
GeneOntology terms	GO:0003677 DNA binding GO:0005783 endoplasmic reticulum GO:0045449 regulation of transcription GO:0005634 nucleus
InterPro families	IPR021980 Transcription factor homeodomain, male germ-cell
Orthology group	MCL10836

Nucleotide sequence:

ATGGTGGAACAGCTCCTGATGAGAGGAACATACAGACGTCGGATCATAGACTTCACATCC
CATCCAAGATCATATCTGATAGATGTTGATCTAGTCAGAGGATCATCCTTTCCTAAAGCA
AAACCGACCTTAGGAGTGCGAAGGGTCGTATGGTTTGCGTTGGTGCGACTCTTCTTCCTA
CCAGCTCTATACCAATGGTGGGCTCAACAAACATCACCAACGTGTGCTAAATTCCTGTTA
GCACTGTGGTTGTTACAAGTTATAAATATTACCATAGATTTCATAGCCCCGGTGTCTTTG
GACATTGATTCCTATTCATGGATAGTGCCTCTTGGTCTTATGATAGTCCTAAGTATAGTG
CATTCTCAAATAGTCAGCACTACTGAAATGGAACTCGCCAGAGTAAGACCTCGTTCAGCA
TATCGGAGGAAACTACCTAGGTATATAAGAAAAACCCGATCAGACTGCGATGGCGGTAGT
GGCGGTGGATCTGCTGAAAGTGGTGCAACTTCAAGCCACAGCAAAACTCCTCTCACAAAA
TCATCAAAATTCAGGCGAAGGCTCTCGAGATCTGATTCAACTGATACAGGGATGCGGAAA
CGTAAAAAGGAAGTGACCAAAAATAATGACACTGTATTACATGCGTGCAAAGAAAAAAAT
ACTGCGAAAGCAAAAGTTAAAGATTCAGACGACGAGGATTATATGTCCTGGAAAAAACCA
GAAGAAACAGCGCCAGTGGTGACGTTCACTCCACCAGCTGACGAGGGGAACACCAAACGT
ACGTTCCGATACAAACCGAACATATTGACAAAGAAATACTTAGAATTCTTCAATGTACGC
CAGAATTTAAATAGACCTATCTTCGCTGACGGTGACGACGGTTTTGAGAGTCTCAACGGC
TACAACTCCCACGGCAGCGACGGAGAAATCAGGAACAGAGACACGGATAGGAAGCCACGC
GAGCAAATAAAAGAAAAGCCGGCAGAGGAAAACGATCCAAAAATAATAGCGTCGGAAGAA
AAAGCAGAAAGCGCGAAAACAAGCAAAGATGAAGAAGACAAATTTGTGGACCATGAATCA
GATAGCGCCACAACGAATCACGGCAAAAGGGTCGGCGTGAGATTCAGGAAATCTTGGGCC
AAAAACTCCGTCCACGAATCAACGGACGAAGATTACAATCTTAAAGCCAAACAAAAGAAA
CTAAATAACTACCAGAGTTCGTCATCGGACGGTGAGTGTTCGGCTTCAGCGCCATCTATC
GCTTTACCGTCACACCATACTATGTCAGACTGGGTTGGCCAAATTACTAACAGTGAAGAG
AGCAGTTACGGATCCCAATCCGAAGCCGGTCACTCCGATGTGTTTCATTACACAGCCGAC
AGCTCTTGGGATCCGTTCGCTATTTTGGATCCTTCCAGCGACACTGATTTCATAGCCCCG
GTGTCTTTGGACATTGATTCCTATTCATGGATAGTGCCTCTTGGTCTTATGATAGTCCTA
AGTATAGTGCATTCTCAAATAGTCAGCACTACTGAAATGGAACTCGCCAGAGTAAGACCT
CGTTCAGCATATCGGAGGAAACTACCTAGAAAAACCCGATCAGACTGCGATGGCGGTAGT
GGCGGTGGATCTGCTGAAAGTGGTGCAACTTCAAGCCACAGCAAAACTCCTCTCACAAAA
TCATCAAAATTCAGGCGAAGGCTCTCGAGATCTGATTCAACTGATACAGGGATGCGGAAA
CGTAAAAAGGAAGTGACCAAAAATAATGACACTGTATTACATGCGTGCAAAGAAAAAAAT
CCTGCGAAAGCAAAAGTTAAAGATTCAGACGACGAGGATTATATGTCCTGGAAAAAACCA
GAAGAAACAGCCCCAGTGGTGACCTTCACTCCACCAGCTGACGAGGGGAACACCAAACGT
ACGTTTCGATACAAACCGAACATATTGACAAAGAAATACTTAGAATTCTTCAATGTACGT
CAGAGTTTAAATAGACCTATCTTCGCTGACGGTGACGACGGTTTTGAGAGTCTCAACGGC
TACAACTCCCACGGCAGCGACGGAGAAATAAGGAACAGAGACACGGATAGGAAGCCACGC
GAGCAAATAAAAGAAAAGCCGGCAGAGGAAAACGATCCAAAAATAATAGCGTCGGAAGAA
AAAGCAGAAAGCGCGAAAACAAGCAAAGATGAAGAAGACAAATTCGTGGACCATGAATCA
GATAGCGCCACAACGAATCACGGCAAAAGGGTCGGCGTGAGATTCAGGAAATCTTGGGCC
AAAAACTCCGTCCACGAATCAACGGACGAAGATTACAATCTTAAAGCCAAACAAAAGAAA
CTAAATAACTACCAGAGTTCGTCATCGGACGGTGAGTGTTCGGCTTCAGCGCCATCTATC
GCTTTACCGTCACACCATACTATGTCAGACTGGGTTGGCCAAATTACTAACAGTGAAGAG
AGCAGTTACGGATCCCAATCCGAAGCCGGTCACTCCGATGTGTTTCATTACACAGCCGAC
AGCTCTTGGGATCCGTTCGCTATTTTGGATCCTTCCAGCGACACTGTGAAATGTACAATG
TGGGAGCGTGGTTGTACTCTGCGCGCTGAATTGTCAGCTGTTGATATAAGTTGGTACGTG
GTGGCTCGGGCGGAGCGCGCTATGTCCGACGGCGGGGTCTGGCCGGGGCTGTTCATGGCG
AGCCTAGTGGCTGTAGTGTCACCCTTTATGAGACTTGTACAGGTGGCTATAGAGAAGGAC
ACGCGCAGTGAAGATGAGCTGCAGAACATTTCTCTCATCAGCTACATTCCATCTCTTGTG
GTGAACTATACCCAGGGCTCGATGGTTTGCGTTTTCAACGGAGCTCTCGGAGACAGCTTT
TGGGAGATATCCTCGAACGTACTATCATGTGTATTACGTTTCGCTCTAAGCGCTCTAGTG
TTCTTCCTCCTGGCGGTCGCTGAGCGCGCCTACAAACAGAGATTCCTTTACGCAAAGCTT
TTCTCGCATCTAACGTCGGCGAGGCGAGCAAGGAAATCAGAATTGCCGCATTTTAGATTA
AATACAGTCAGAAATATAAAGACGTGGCTGTCAACTAGATCATATCTGCGGCGTCGTGGA
CCGCAGAGGTCGGTTGATGTGATAGTATCGGCTGCTTTTATGTTGACCCTCACATTACTT
GCTTGTGTCAGCGCACAACTATTAAGGGACTCGGTTACTCTTGAGAGGGGCTGGTTGTTA
GAAGCTATGGTTTGGAGCTGTTGCCTCGGTATATATCTCCTTCGTCTGCTCACCCTCGGC
AGTAACGTGAACAGGAAGTACCGCGGATGTCTCTCAGCGATACTCACAGAACAGATCAAC
TTACATCTGGCGATAGAACAGCGACCCGAGAGCAAAGAACAACTCACCGTAGCCAACAAT
GTCCTTAAATTGGCCGCAGATTTGCTAAAGGAATTGGATTCGCCGTTTAAGATATCAGGG
ATATGTGCAAATCATTATCTCTACACCATAACTAAAGTCGTGATACTCTCCGCGCTGTCT
GGAGTCTTATCTGAAATGTTAGGATTTAAGTTGAAATTGCACAAAATTAAAATTAAATAA

Protein sequence:

MVEQLLMRGTYRRRIIDFTSHPRSYLIDVDLVRGSSFPKAKPTLGVRRVVWFALVRLFFL
PALYQWWAQQTSPTCAKFLLALWLLQVINITIDFIAPVSLDIDSYSWIVPLGLMIVLSIV
HSQIVSTTEMELARVRPRSAYRRKLPRYIRKTRSDCDGGSGGGSAESGATSSHSKTPLTK
SSKFRRRLSRSDSTDTGMRKRKKEVTKNNDTVLHACKEKNTAKAKVKDSDDEDYMSWKKP
EETAPVVTFTPPADEGNTKRTFRYKPNILTKKYLEFFNVRQNLNRPIFADGDDGFESLNG
YNSHGSDGEIRNRDTDRKPREQIKEKPAEENDPKIIASEEKAESAKTSKDEEDKFVDHES
DSATTNHGKRVGVRFRKSWAKNSVHESTDEDYNLKAKQKKLNNYQSSSSDGECSASAPSI
ALPSHHTMSDWVGQITNSEESSYGSQSEAGHSDVFHYTADSSWDPFAILDPSSDTDFIAP
VSLDIDSYSWIVPLGLMIVLSIVHSQIVSTTEMELARVRPRSAYRRKLPRKTRSDCDGGS
GGGSAESGATSSHSKTPLTKSSKFRRRLSRSDSTDTGMRKRKKEVTKNNDTVLHACKEKN
PAKAKVKDSDDEDYMSWKKPEETAPVVTFTPPADEGNTKRTFRYKPNILTKKYLEFFNVR
QSLNRPIFADGDDGFESLNGYNSHGSDGEIRNRDTDRKPREQIKEKPAEENDPKIIASEE
KAESAKTSKDEEDKFVDHESDSATTNHGKRVGVRFRKSWAKNSVHESTDEDYNLKAKQKK
LNNYQSSSSDGECSASAPSIALPSHHTMSDWVGQITNSEESSYGSQSEAGHSDVFHYTAD
SSWDPFAILDPSSDTVKCTMWERGCTLRAELSAVDISWYVVARAERAMSDGGVWPGLFMA
SLVAVVSPFMRLVQVAIEKDTRSEDELQNISLISYIPSLVVNYTQGSMVCVFNGALGDSF
WEISSNVLSCVLRFALSALVFFLLAVAERAYKQRFLYAKLFSHLTSARRARKSELPHFRL
NTVRNIKTWLSTRSYLRRRGPQRSVDVIVSAAFMLTLTLLACVSAQLLRDSVTLERGWLL
EAMVWSCCLGIYLLRLLTLGSNVNRKYRGCLSAILTEQINLHLAIEQRPESKEQLTVANN
VLKLAADLLKELDSPFKISGICANHYLYTITKVVILSALSGVLSEMLGFKLKLHKIKIK