MonarchBase - Protein-coding gene

DPGLEAN04271 in OGS1.0

New model in OGS2.0	DPOGS213697
Genomic Position	scaffold487:+ 25009-38948
	See gene structure
CDS Length	3351
Paired RNAseq reads	2070
Single RNAseq reads	5769
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA010670 (0.0)
Best Drosophila hit	CG3542, isoform B (4e-141)
Best Human hit	pre-mRNA-processing factor 40 homolog A (2e-76)
Best NR hit (blastp)	hypothetical protein TcasGA2_TC015831 [Tribolium castaneum] (0.0)
Best NR hit (blastx)	hypothetical protein TcasGA2_TC015831 [Tribolium castaneum] (3e-169)
GeneOntology terms	GO:0017058 FH1 domain binding GO:0005685 U1 snRNP GO:0000398 nuclear mRNA splicing, via spliceosome GO:0071011 precatalytic spliceosome
InterPro families	IPR010989 t-SNARE IPR002713 FF domain IPR001202 WW/Rsp5/WWP IPR000727 Target SNARE coiled-coil domain
Orthology group	MCL11755

Nucleotide sequence:

ATGCTCCCTCGTCGTCGAAACGTCGGAGTGTCGGATAAGACACCTCTTTTACAAGAAGAA
TTGATACCCTACGATAAACTCAACAAAAACGGACACATTTACCAGCCAACATTTTCTGAT
AAGCAGCAAGAGAACTACTCGGTACCAGATACTTCGTTCGACTTTCTTGAGGAATTTGTA
TTTGAAGCAGTGATGGCTGCTAGAGATAGGACTCAAGAATTTGCGTCAACAGTTAGAAGT
CTCCAAGGTCGAACGTTTGCTCGGCCTATAATAAAAGATGAAAAAAAAGCTGCAATGCTC
GCAACATATTCTCAATTTATGAGTATGGCAAAAGTTATAAGTAAAAACATAACAAGTACC
TACACCAAACTTGAAAAGCTTGCCTTGTTGGCAAAAAAGAAGTCTCTATTCGACGATCGG
CCTATGGAAATCCATGAGCTAACATATATAGGAGAAATGCCTAGAGGACGGAGGAGCATG
CATAGCCATTCCTCTAGTGTAGTCCTAGCACTACAATCAAGACTTGCATCTATGAGTAAC
CAGTTTAAACAGGTACTTGAAGTAAGGTCTGAAAATCTTAAGCATCAAAATAATAGACGC
ACACAATTTTCTGCATCTGCTCCAGTGGTCAAAGAAGTTCCATCTTTATTGCAACCAGAT
GAAGTTAGTATAGATTTAGGGGACACCTCTCCTCTTCAAAGCCAACAATTAGCACTAAGG
GATGATACGGATTCCTATGTGCAACAAAGAGCGGAGACTATGCATAACATTGAGAGTACT
ATTGTAGAGTTGGGTGGGATTTTCCAACAATTGGCTCACATGGTCAAAGAACAGGATGAG
GCTATAGGCAGAATAGATGCCAACATCCAAGAAGCTGAAATGAATGTTGAAGCTGGCCAT
AGAGAAATAATGAAATATTTCCAAAATATAACAGGAAATAGAGCACTCATGTTTAAAGAT
ACTCCTGGCTCTGGTACTAGTTCACCAGGCCTTATGAGCACTGGGCCTTTGCTCCCGCCG
CCGATGCTCGGCGGATTGCCGCCTCCCATGCCGCCCGCGGTAGCGATGCCGCCGGTTCCC
GGCATGCCACCGAATATGCCACTTCCTCCGCCGATGGGTTTTCCACCTATGATGGCACCA
TTTTCAATGCCTCCACCAGGATTTCCACCTTTTAAACCAGAGTTAAGTGCACCAGCACCA
GAATTATCGCCCATGGTGAATCAGAATTCCCCATGGACTGAACACAAAGCACCAGATGGA
CGTACTTACTATTACAATTCCATAACAAAACAGAGTCTTTGGGAAAAACCAGATGATTTG
AAAACCCCCGCTGAAAAACTTTTGTCGTCGTGTGTATGGAAAGAATATACCACAGATGCT
GGCCGAGTCTACTATCATAATATTGAAACAAAGGAATCTAGTTGGGTTATCCCAAAGGAA
CTTCAAGAGATAAAAGACAAAATAGCCGCTGAAGAAGCAGCACATGCTATAATGAATGCC
GAGGTACCGCCAGGTGAAGTACCTCTGCCAATGTCACCTGCCATTAACAGTACATCCGCT
TTAGATGAAGCTATGGCCAAGACACTAGCATCTATAGACCCCGGTCTTACGACATCTATA
CCTATCCCAGAGGAAATAAAGCCTGAGGAAATAGCCGCCCCACCACAACCAAATGGAGCT
GATGCTGAACCAACTCCTGAAACACTGTACAAAGACAAGAAGGAAGCCATAGAGGCCTTC
AAGGAGCTGCTCAAAGAAAGGAATGTACCTTCCAATGCTACATGGGAGCAATGCGTCAAG
ATTATATCAAAAGATCCGAGATATGTCACGTTCAAGAAATTAAATGAAAAGAAACAGGCG
TTCAATGCCTACAAGACACAGAAACTTAAAGACGAGAGGGAGGAGCAGAGATTAAAAACA
AAAAAGAATCGGGAGAATTTGGAGGAGTTCTTATTGAGTTGCGATCGTGTGACGTCACTC
ACTAAGTATTATAAGTGCGAGGAAATGTTTAATAATCTAGAGATATGGCGATGTGTTCCT
GACTCGGACAGAAGAGACATTTATGAAGACTGCATCTTCACGATAGCGAAACGCGAAAAA
GAGGAGGCCAAGGCATTGAAGAAACGGAATATGAAAATTTTATCTCAAGTCTTAGAAAAC
ATGAATGAAATAAGTTACAACAGTACTTGGAGTGAAGCTCAAGTATTACTACTCGAGAAT
GCTGCTTTTAAGAATGACGTCAGTCTACTGGGTATGGACAAAGAGGACGCTTTAATAGCT
GTGGGCAACTACAGCTCAAACATGGGCTGGCTCGACCGGGAAAGTACCACCCTCTCACAG
GAGGCACTATTGGACGGTCTGCACGAAGAAGGGAAGTTGACTTCTATGTCTCTGTGGGTC
GAACTGTATCCAGTCATATCAGCTGATACACGATTTTCGGCTATGCTCGGACAAAACGGC
TCAACACCTCTGGACCTGTTCAAGTTCTATGTGGAGAACCTCAAGGCGAGGTTCCACGAC
GAGAAGAAAATCATCAAGGAGATCCTGAAAGAGAAAGAGTTTGAAGTCAAGCCGACCACC
ACCTTCGAGGAATTCGCCACCGTCGTGTGCGAGGACAGCAAGTCGGCGTCGCTGGACGCC
GGGAACGTTAAGCTCACGTACAATTCGTTACTTGAAAAGGCCGAAGCGAAGAACAAGGAG
AAATTGAAAGAGGAATCAAAAGCTCAGAAGAAAATCGAGAGCGCGTTCAAGTGGTTGTTA
AGCGAGGCTCGACTGGACCCGGCGCTGTCGTGGGCCGAGGCGAAGGAGAAGATAGATCTG
AACGCACCAGAGATAGTGGCCGTGCAGGACGAGAACGAACGTGAGCGGATATACATGGAC
TATCAACACGAGCAGGAGGAGAGCTGTATGCATTACCATCATCCCAAGCCGAGAAAATCG
AAGAAATCCAAAAAGAAGAAGCAACGGTCAAGATCGCCGTCTATCGTGAGCTTGAAGCCG
TCTCGTTCCCGTTCCGTGTCCGAGACTCGTCTGTCCTCCGGGACCGCCTCGCCCTCGGAC
GAGGAACGTAAGAACAAGAAGACTAAAAAGAAACATCGCAAGCATTCGCCGCCGAAATCT
CCTACGCCTGAGGAGGGAGGTATCACAGACGAGGAACCAGCGAAGCACAGGAGTAAGAAA
ACCAAAAGGAGCGCTCCCAGCTCACCCGACCAGCCCGAACCGCCCCACAGACCCAAGAAG
AAAAAAGAGAAACGGGACAAGAAGGACAGAGACCGACCCGCTCATCGTCAAGCGGCGGAA
TACTCCTCGTCAATTAATTCTCAGATGAGTAAGAAACGTCCTAAGGCCTAA

Protein sequence:

MLPRRRNVGVSDKTPLLQEELIPYDKLNKNGHIYQPTFSDKQQENYSVPDTSFDFLEEFV
FEAVMAARDRTQEFASTVRSLQGRTFARPIIKDEKKAAMLATYSQFMSMAKVISKNITST
YTKLEKLALLAKKKSLFDDRPMEIHELTYIGEMPRGRRSMHSHSSSVVLALQSRLASMSN
QFKQVLEVRSENLKHQNNRRTQFSASAPVVKEVPSLLQPDEVSIDLGDTSPLQSQQLALR
DDTDSYVQQRAETMHNIESTIVELGGIFQQLAHMVKEQDEAIGRIDANIQEAEMNVEAGH
REIMKYFQNITGNRALMFKDTPGSGTSSPGLMSTGPLLPPPMLGGLPPPMPPAVAMPPVP
GMPPNMPLPPPMGFPPMMAPFSMPPPGFPPFKPELSAPAPELSPMVNQNSPWTEHKAPDG
RTYYYNSITKQSLWEKPDDLKTPAEKLLSSCVWKEYTTDAGRVYYHNIETKESSWVIPKE
LQEIKDKIAAEEAAHAIMNAEVPPGEVPLPMSPAINSTSALDEAMAKTLASIDPGLTTSI
PIPEEIKPEEIAAPPQPNGADAEPTPETLYKDKKEAIEAFKELLKERNVPSNATWEQCVK
IISKDPRYVTFKKLNEKKQAFNAYKTQKLKDEREEQRLKTKKNRENLEEFLLSCDRVTSL
TKYYKCEEMFNNLEIWRCVPDSDRRDIYEDCIFTIAKREKEEAKALKKRNMKILSQVLEN
MNEISYNSTWSEAQVLLLENAAFKNDVSLLGMDKEDALIAVGNYSSNMGWLDRESTTLSQ
EALLDGLHEEGKLTSMSLWVELYPVISADTRFSAMLGQNGSTPLDLFKFYVENLKARFHD
EKKIIKEILKEKEFEVKPTTTFEEFATVVCEDSKSASLDAGNVKLTYNSLLEKAEAKNKE
KLKEESKAQKKIESAFKWLLSEARLDPALSWAEAKEKIDLNAPEIVAVQDENERERIYMD
YQHEQEESCMHYHHPKPRKSKKSKKKKQRSRSPSIVSLKPSRSRSVSETRLSSGTASPSD
EERKNKKTKKKHRKHSPPKSPTPEEGGITDEEPAKHRSKKTKRSAPSSPDQPEPPHRPKK
KKEKRDKKDRDRPAHRQAAEYSSSINSQMSKKRPKA