MonarchBase - Protein-coding gene

DPGLEAN15022 in OGS1.0

New model in OGS2.0	DPOGS214122
Genomic Position	scaffold2603:- 5957-11705
	See gene structure
CDS Length	3369
Paired RNAseq reads	8960
Single RNAseq reads	21691
Migratory profiles	Query via corresponding ESTs
Best Bmobyx hit	BGIBMGA006171 (3e-24)
Best Drosophila hit	CG42389, isoform G (5e-106)
Best Human hit	fibronectin type-III domain-containing protein 3A isoform 2 (1e-99)
Best NR hit (blastp)	hypothetical protein TcasGA2_TC010469 [Tribolium castaneum] (0.0)
Best NR hit (blastx)	hypothetical protein TcasGA2_TC010469 [Tribolium castaneum] (6e-171)
GeneOntology terms	GO:0031410 cytoplasmic vesicle GO:0012506 vesicle membrane GO:0001669 acrosomal vesicle GO:0016020 membrane GO:0016021 integral to membrane GO:0000139 Golgi membrane GO:0060009 Sertoli cell development GO:0042598 vesicular fraction GO:0009566 fertilization GO:0007286 spermatid development GO:0016337 cell-cell adhesion GO:0005829 cytosol GO:0005794 Golgi apparatus
InterPro families	IPR003961 Fibronectin, type III IPR008957 Fibronectin type III domain IPR013783 Immunoglobulin-like fold
Orthology group	MCL13142

Nucleotide sequence:

ATGGTAGGCGTGGGCGTAGCGGAGGGCGGCGGGGACGGCTACTACGGCGAGTACTACCCC
CCTGAGCAGTACTACATGCCGGAGATGTGCCCTCACCCTCAGCACCCACAGCATGCGCAT
ATGGCGTGCACTGTTCACGCTGAGTATGGTGGAATGCCGGTGGTAACGTCAGCAACAATG
ATGCCGCCTCTTTTACCACCGGTGATGGACGAGAATATGAGACATTACCTGGTGCCGCAT
CCTCATGCACAGCCGCACCCACACCACGCGGCGCACCACCAGCCGCCGCACCACCAACCA
CCCCATCACCAACCGCCCCCTCATCATCAACCACCGCATCATTTTGGACCAACAAATGGT
GCTGCGGGTCCCCAACACTTTTATGGAGGTGGCTATCCGACTCACTTCCATCACGTTCCA
CCCCACCACATGCAGCACTCACCACCACCTCCGGTATACCACAAGGATGAACGAACTCAG
CGGCAATACTCTAAACTCAAACAAAAGCTGGAACGCAAACACGTTAATAGGAATAATGGA
ATAGAAGTAAATTCTGGTGCGAGCACGCCGTCATTATCACCAAGGAAAGAGTCAAATGGT
CGCGGTGGTAGTGGGAGTGGTGGAGCGTCGTCTGGCGCTTGGTCTGAGGGCGAGGGGTCA
TCAGCTGGCGCCTCAATCCAGGGTGATGATGAGAATGATACACAGGCACTGCTAGATCTT
GTGTCTGCTACCCGAACACCGCAAGTTAGTGACGTGACTCCAACAAGTGCTCTCGTGCAA
TGGAATTCCCCTCTACCAGAAGGTGTCACTCTCCCAAATGTGGACCTCACTTACGACCTC
CTGCTTGGAGACCGGGGACGGTATAAAGCTATATACAGTGGTTCATCGCTATCGTGTCGC
GTAAGAGACTTGAGACCCGGATGCGAATACTCAGTGTGTCTGCAAATCCGTGCGGGTGAG
TTGACGGGTGCGGCGAGTGAAGCGGCCACATTCCGCGCTCCACCGGCCCCGCCCGAACGA
CTGCCGGCGGCGCGCGTTACACAGAGAGCACGAACATCGCTGTTGTTACGCTGGCCCTCC
GCCACCGACAACGGAGCGCGAGTCACACACTACCTGCTGGAGATGGACGCCGGGGAGGGC
TTCGTGGAGCTCACCAGGCCCCGCACGAGACAACACACCGTCAATAATTTGCAACCTCAG
ACGCGTTACCGATTCCGGATCGCGGCCGTCAACGAGTGCGGCCGCGGGGAATGGAGTGAA
GAGACCGTTGTTTGGACTACGGGGTCTCCGCCGCCTGCTCCCGGCCCACCGACGCTGGTT
ACCGCCTCGCCGACGTCATTAACCCTGACGTGGCAACGCCGGGCGGAGGAGGAGTTCGTC
CTGCAGATGGACGATGTATCACGAGGACACGGATTCCTACCCGTTTACAGCGGGTCGGAC
TGCACTTACGTGTGTGACGGACTCAGGCGAGCGACCGATTATAGATTTCGTTTGAGGAGC
GAAACCGTCGACGGTCAAGGACCGTGGTCTGTGGAGGTCACCTACACCACGCCGCCCGAG
CGACCCTGTCCGCCGAGCAGACCCACACCCCGCGGGAAGATACACTCTCGCGCGATACGG
TTGAGGTGGGATCCTCCCACCGATAACGGCGGAGCCGCCGTGGACACTTACACTTTAGAA
ATTGACGGTGGAGAGGGTTACAGCCTCGCTTATCAAGGACCCGAACGTGAGGCCCACTGT
GATCGCCTCCTACCAGGAACACAGTACCACGCGCGAGTCAGATGCTCGAACGTGGCAGGC
ATGAGCGACTGGTCAGCTAGCGAGACAGTTACCACAGAGGCGACCTGTCCCAGCGCGTGT
CCCGCGCCGGAGACCAGCGGAGCCAGCCGCGCCACGCAAGCCACCGTGCGTTGGAAGGCG
CCCGAATGCACTGGAGGGTCTCCACTTACAGAATATCGCCTCGAACTGGCTGATACTGAC
GGTCTGGTACGTTTAGTACACGTGGGCCCTGAATCTGAATGTGTCGTTCGGGATTTACTT
CCCGGCCGAGAATACCGAGCGTGGGTGACAGCATGCAATAGGGTCGGTGCCGGGCCTCCA
TCCCCAGCTTTGAGGTTCACCACACAGCCCGCACCTCCCGACGCGCCCGAACCTCCTGTC
GTTCATATAGAGAGCCCCCGGACGGCTCTGGTCGAGTGGACCGCTCCCGCTAACAATGGC
GCTCCTATTATCGATTTCCGTCTCGAAATGAGTGCGAACAACGTAGACTGCGCCTTCGCC
GAGGTATATCGCGGACTGGACACCGTCTGTTCGATAGGGAAACTGACTCCTTTCACGCCC
TACTTCTTTAGGGTGAGAGCTACGAATTCGGCCGGAAGAGGCCCGCGCTCGGCGGCCAGC
ACCGCTCTCACTCCTCGTGCTGTTCCCGCGGCGCCCACGGGGCTTCGACACGAAGCAACC
TGTGATTCTCTGAAACTACACTGGCGAGTACCGGCAAATCACGGAGCGGACATTCTTAAA
TATCGCGTGGAAGTAGACGACACCGCCTTCGATACAGATGGACCCATTCCAGAGAGGCTC
GTGGAGGGACTCGAGCCAGACACCGTGTATCGAGTGAGAGTGGCGGCGGTCAACGAACTT
GGACCCGGAGATTGGTCGGAAGAGGCGCTCGCCTCTACCCGACCGCGACCACCAGCGCCG
CCCGTAGTGAAGTTCGCTCAGGCCGCGCACAATCACCTCCGACTGGAGTGGGCCGGTCGG
GAGGGGACACAGTACTGCGTGGAGATGCGCGCGCCTGACGCCCGGGAGTTCCGTCCGGTG
TACCGCGGTTACGCACATTCCTGTAAGGTGAAGAAGTTGCGCGAAGCGACGACCTACACG
TTCCGGATACGAGCCAGCGACGAGCGGGGCGGGCGCGGCGTGTGGTCGTCGCCGCTGACC
GCTCGCACTGCGTCCGCGCCCCCCGCCGCGCCCTCCGCACCCACCGTCACGCTGGTGACA
CCGCGGGCCGCGCTCGTCGCTTGGGACCCGGTCGACGACGCCGACTACGTGCTGCAGAGC
GCGCGCGGCAAGGACGCTGTCTTTAAAGAGGTTTACACAGGCGACGCGTCGCAGTTCCAA
ATGGAGGAGTTGGAGTACGGCGTGGAGTACCAGGTGCGGGTGTGCGCGACCCGCGGCGGG
CTGTCCAGCTCGTGGTCGCCGTGCTCTAAGGTGGTGGTGCCACCGCCGGTGTCGGGTCGG
CCGCGTCGTGTCCGTCCGTCCCGGCCGCTGTCCGCGAGTCACGCGGCGCTGATGATGGCG
GCCGGCTTCTTGCTGGTGGCGGTCTTGGTGGCTGTCTTCCTTCAGAGCCTGGTGGAGCCT
CGCCCGTGA

Protein sequence:

MVGVGVAEGGGDGYYGEYYPPEQYYMPEMCPHPQHPQHAHMACTVHAEYGGMPVVTSATM
MPPLLPPVMDENMRHYLVPHPHAQPHPHHAAHHQPPHHQPPHHQPPPHHQPPHHFGPTNG
AAGPQHFYGGGYPTHFHHVPPHHMQHSPPPPVYHKDERTQRQYSKLKQKLERKHVNRNNG
IEVNSGASTPSLSPRKESNGRGGSGSGGASSGAWSEGEGSSAGASIQGDDENDTQALLDL
VSATRTPQVSDVTPTSALVQWNSPLPEGVTLPNVDLTYDLLLGDRGRYKAIYSGSSLSCR
VRDLRPGCEYSVCLQIRAGELTGAASEAATFRAPPAPPERLPAARVTQRARTSLLLRWPS
ATDNGARVTHYLLEMDAGEGFVELTRPRTRQHTVNNLQPQTRYRFRIAAVNECGRGEWSE
ETVVWTTGSPPPAPGPPTLVTASPTSLTLTWQRRAEEEFVLQMDDVSRGHGFLPVYSGSD
CTYVCDGLRRATDYRFRLRSETVDGQGPWSVEVTYTTPPERPCPPSRPTPRGKIHSRAIR
LRWDPPTDNGGAAVDTYTLEIDGGEGYSLAYQGPEREAHCDRLLPGTQYHARVRCSNVAG
MSDWSASETVTTEATCPSACPAPETSGASRATQATVRWKAPECTGGSPLTEYRLELADTD
GLVRLVHVGPESECVVRDLLPGREYRAWVTACNRVGAGPPSPALRFTTQPAPPDAPEPPV
VHIESPRTALVEWTAPANNGAPIIDFRLEMSANNVDCAFAEVYRGLDTVCSIGKLTPFTP
YFFRVRATNSAGRGPRSAASTALTPRAVPAAPTGLRHEATCDSLKLHWRVPANHGADILK
YRVEVDDTAFDTDGPIPERLVEGLEPDTVYRVRVAAVNELGPGDWSEEALASTRPRPPAP
PVVKFAQAAHNHLRLEWAGREGTQYCVEMRAPDAREFRPVYRGYAHSCKVKKLREATTYT
FRIRASDERGGRGVWSSPLTARTASAPPAAPSAPTVTLVTPRAALVAWDPVDDADYVLQS
ARGKDAVFKEVYTGDASQFQMEELEYGVEYQVRVCATRGGLSSSWSPCSKVVVPPPVSGR
PRRVRPSRPLSASHAALMMAAGFLLVAVLVAVFLQSLVEPRP