MonarchBase - Protein-coding gene

DPOGS207010
Transcript	DPOGS207010-TA	5088 bp
Protein	DPOGS207010-PA	1695 aa
Genomic position	DPSCF300001 + 1127856-1145330
RNAseq coverage	1693x (Rank: top 8%)

Annotation
*Heliconius*	HMEL015464	89.39%
*Bombyx*	BGIBMGA012935-TA	95.58%
*Drosophila*	Chc-PD	84.79%
EBI UniRef50	UniRef50_P29742	84.79%	Clathrin heavy chain n=181 Tax=root RepID=CLH_DROME
NCBI RefSeq	NP_001136443.1	95.58%	clathrin heavy chain [Bombyx mori]
NCBI nr blastp	gi\|219362829	95.58%	clathrin heavy chain [Bombyx mori]
NCBI nr blastx	gi\|219362829	95.58%	clathrin heavy chain [Bombyx mori]

Group
Gene Ontology	GO:0006886	3.9e-184	intracellular protein transport
	GO:0030132	3.9e-184	clathrin coat of coated pit
	GO:0030130	3.9e-184	clathrin coat of trans-Golgi network vesicle
	GO:0005198	3.9e-184	structural molecule activity
	GO:0016192	3.9e-184	vesicle-mediated transport
	GO:0005488	2.7e-147	binding
KEGG pathway	tca:656193	0.0
	K04646 (CLTC)	maps->	Huntington's disease
			Endocytosis
			Lysosome
			Bacterial invasion of epithelial cells
InterPro domain	[1-1692] IPR016341	0	Clathrin, heavy chain
	[2-354] IPR016025	3.9e-184	Clathrin, heavy chain, linker/propeller domain
	[1203-1542] IPR011990	2.7e-147	Tetratricopeptide-like helical
	[3-336] IPR001473	1.9e-144	Clathrin, heavy chain, propeller, N-terminal
	[1202-1537] IPR016024	8.9e-121	Armadillo-type fold
	[355-500] IPR012331	2.4e-77	Clathrin, heavy chain, linker
	[985-1130] IPR000547	2.4e-43	Clathrin, heavy chain/VPS, 7-fold repeat
	[337-360] IPR015348	5.8e-11	Clathrin, heavy chain, linker, core motif
	[155-193] IPR022365	1.2e-06	Clathrin, heavy chain, propeller repeat
Orthology group	MCL12071		Single-copy universal gene

Nucleotide sequence:

>DPOGS207010-TA
ATGGCTCAGGTGTTGCCAATACGCTTCCAGGAGCATTTACAGCTCACAAATATAGGTATAAATCCCGCTTCAATATCATTCAACACCCTGACCATGGAGTCAGATAAGTTCATCTGTGTCCGTGAGAAGGTGGGTGACACCTCGGAGGTTGTCATCATTGACATGGCGGATCCCACCAACCCCATAAGGAGACCCATCAGCGCTGACTCTGCCATCATGAACCCAGCTAGCAAAGTCATCGCTCTCAAGGGAAAGGCTGGAGTGGAAGCGCAAAAGACCCTCCAAATATTCAACATTGAAATGAAATCCAAGATGAAGGCGCACACTATGACCGAGGATGTAGTTTTCTGGAAGTGGATCTCGCCTAACACTTTGGCCCTGGTGACCAAAATATCAGTATACCACTGGTCCATGGAGGGGGATTCGACACCAGTCAAGATGTTCGATAGACATTCATCTCTCGCTGAGTGTCAGATTATCAACTACAGAACCGATCCTAAGCAGCAGTGGCTGCTACTTGTCGGTATCTCGGCGCAACAGAACCGTGTTGTGGGCGCGATGCAGTTGTACTCAGTTGAGCGGAAGTGTTCTCAGCCGATCGAAGGTCATGCTGCTTCGTTCGCGACCTTCAAGGCTGAGGGTAACGCTGAGCTGTCTACGCTGTTTTGTTTCGCTGTGAGGACAGCACAGGGCGGGAAGCTGCACATCATCGAGGTTGGTCAGACCCCAGCCGGTAACCAGCAGTTCCCTAAGAAAGCGGTGGACGTTTTCTTCCCGGCTGAAGCCCAGAACGATTTCCCGGTCGCCATGCAAGTGTCGCCCAAATATGACGTCATCTACCTGATCACCAAATACGGTTACATCCATATGTACGACATCGAAACCGGCACATGCATTTATATGAATCGCATCTCCTCTGACACTATATTCGTGACAGCACCCCACGAATCGACCGGCGGAATTATTGGTGTGAACCGCAAGGGACAAGTTCTGTCTGTGACGGTGGAAGAGGAGTCCATAGTGCCGTACATCAACACGGTGCTGCAGAACCCTGAACTGGCGCTCCGGCTGGCTGTGAGGAATAACCTGGCCGGTGCCGAGGAGTTGTTCGTCAGGAAATTCAACATGCTGTTCACCAACGGACAGTACGGAGAGGCAGCTAAGGTAGCGGCTATGGCTCCGCGCGGGATCCTCCGTACGCCGCAGACGATCCAGCGGTTCCAGCAGGTGCCCACCCAGCCCGGCCAGACCTCCCCGCTGTTGCAGTACTTCGGCATCCTGTTGGACCAAGCACAGCTCAACAAGTTCGAATCGCTGGAGTTGTGCCGACCTGTACTTCTGCAAGGTCGCAAGCAACTATTGGAGAAATGGCTGAAGGAAGAGAAATTGGAATGTTCAGAGGAACTGGGAGACCTTGTGAAGCAGGTCGATCCCACTCTGGCACTATCAGTTTATTTAAGGGCGAATGTAGCTGCCAAAGTGATCCAATGTTTCGCCGAAACCGGCCAGTTCCAGAAGATCGTGTTATACGCTAAGAAGGTGGGCTATACGCCGGATTATATCTATCTCCTGAGATCTGTGATGCGTACGAATCCCGAGCAAGGCGCAGGTTTCGCGGGTATGCTGGTCGCCGAGGACCCGCCGCTGGCTGACATCAATCAGATCGTGGACGTGTTCATGGAACAGAACATGGTACAGCAGTGCACAGCCTTCTTACTCGATGCCTTGAAGAACAACCGTCCCGAGGAAGGAGCCCTACAGACCAGATTGTTAGAGATGAATCTGATGTCAGCGCCTCAAGTGGCAGACGCGATTCTGGGCAATGGTATGTTCACGCACTACGACCGCGCCCATGTCGCTCAGCTCTGCGAGAAGGCCGGCCTACTGCAACGTGCTCTAGAGCATTACACAGACTTGTACGACATTAAGAGAGCTGTGGTTCACACACACTTGCTGTCCGCCGATTGGTTGGTGAGTTATTTCGGCACCCTATCAGTCGAAGACTCCCTCGAGTGTCTTAAGGCGATGCTACAAGCGAACATTCGCCAAAACCTTCAGATCTGCGTACAGATCGCAACCAAATACCACGAACAACTAACAACCAAGGCTCTCATTGAATTATTCGAGGGTTTCAAGACTTATGAAGGTCTATTCTACTTCCTCGGCTCCATTGTGAACTTCAGTCAGGATTCAGAAGTACATTTCAAGTACATCCAGGCTGCATGCAAGACTGGTCAGATCAAAGAAGTGGAACGCATCTGTCGCGAGTCGAACTGCTACAACGCGGAGCGTGTGAAAAATTTCCTTAAGGAAGCCAAACTTCCCGATCAGTTGCCTCTAATCATTGTGTGCGATAGATTCGACTTCGTACACGACCTCGTCTTGTATTTGTATAGAAACAGCCTCCAAAAGTACATCGAGATTTACGTACAGAAGGTAAATCCGTCAAGGCTGCCTGTAGTTGTCGGTGGTCTGTTGGATGTAGACTGCGCTGAGGATATAATCAAAAACCTCATACTCGTAGTCCGAGGACAGTTCTCCACAGACGAGCTCGTAGCTGAAGTTGAGAAGAGAAACAGACTAAAGTTGCTCCTACCATGGTTGGAGACGCGGGTCCACGAGGGCTGCAACGAGCCAGCGACGCACAACGCTCTAGCCAAGATTTACATTGATTCTAACAATAATCCCGAGAGATTCTTGAAGGAGAACCAATGGTACGATTCCCGTGTTGTGGGTCGCTACTGTGAGAAGCGCGATCCCCACCTCGCTTGTGTGGCGTACGAGCGTGGGCAGTGTGACCGCGAGCTGATCGCCGTATGCAATGATAACTCGCTGTTCAAGACTCAAGCGCGGTACCTCGTGAGGAGACGGGACCAGGACCTCTGGCTGGAAGTACTGGCCGAGTCAAACCCTTACAAGAGGCAGCTTATAGATCAGGTTGTACAAACGGCTCTGTCGGAAACCCAAGACCCTGAGGACATTTCGGTGACGGTGAAGGCATTCATGACAGCTGATTTGCCGAATGAGCTGATCGAGCTGTTAGAGAAGATTGTCCTAGATAACTCTGTGTTCTCTGATCACAGGAACCTACAGAATCTGCTTATTTTGACAGCTATCAAGGCCGATCGCACCCGTGTTATGGAATACATCAATCGCCTGGACAACTACGACGCACCGGACATCGCTAACATAGCCATCAATAACGAGCTATATGAGGAAGCTTTTGCTATCTTCAAGAAGTTCGATGTTAATACATCGGCCATTCAAGTCCTGATAGACCAAGTGAAGGATCTACAACGCGCTTATGAATTCGCCGAGCGTTGCAACGAGCCGGGCGTTTGGTCACAACTGGCTAAGGCTCAGTTACAGCAGGGATTGGTGAAGGAAGCCATTGATTCTTACATAAAGGCAGACGATCCATCCGCCTATATGGACGTAGTTGATACAGCCACCAAACAACAGTCCTGGGAGGATCTCGTCAGATACCTACAGGCTAGTTCTGGTCTACTTATACGTTATATAAATGACTTAATAATGGCTCGCAAGAAGGCTCGTGAATCGTACATAGAATCCGAATTGATTTACGCTTACGCCCGCACTGGGAGGCTGGCTGATCTCGAAGAGTTCATCTCTGGTCCGAACCACGCCGACATACAGAAGATAGGGGACAGGTGTTTCGACGATAAGATGTACAACGCTGCTAAACTGCTCTACAATAACGTGAGCAACTTTGCTCGTTTGGCCATCACTCTGGTGCATCTCAAGGAATTCCAAGGCGCGGTGGACAGTGCCCGCAAGGCGAACTCCACTCGTACATGGAAGGAGGTTTGCTTCGCCTGTGTCGACGCCGGTGAATTCCGTCTCGCTCAGATGTGCGGACTACATATAGTTGTGCACGCTGACGAGTTGGAGGACCTCATTAATTACTACCAGGATCGTGGTCATTTCGACGAGCTGATCAGTCTGCTCGAGGCTGCTCTCGGTCTCGAACGTGCTCATATGGGAATGTTCACAGAACTGGCCATACTTTACTCCAAGTACAAACCAGCTAAGATGCGCGAACATTTGGAACTATTCTGGTCTCGCGTTAACATTCCGAAGGTCCTTCGCGCCGCGGAACAAGCTCATCTGTGGTCCGAACTAGTGTTCCTGTACGATAAATACGAGGAGTACGACAACGCTGCTCTCACCATGATGCAACACCCCACAGAGGCATGGAGGGAGGGCCACTTCAAGGATATCATCACTAAGGTGGCGAATATGGAGCTGTACTACAAGGCTATCCAGTTTTACTTGGACTACAAACCTCTTCTTCTGAACGATCTTCTGCTAGTGCTGGCTCCACGTATGGATCACACTCGTGCTGTGGGATTCTTCACCAAGGCGGGCCACCTACAGCTGGTTAAGGCCTACCTGAGGTCCGTACAGAGCCTCAACAATAAAGCTGTCAATGAAGCACTCAATTCCCTGCTCATTGATGAAGAGGATTATCAGGGCTTGAGGACATCGATTGACGCTTTCGATAACTTTGACACGATCGCACTGGCGCAGCAACTGGAGAAACACGAACTCACCGAGTTTAGAAGAATTGCTGCCTATTTGTACAAAGGCAACAATAGATGGAAACAGAGCGTCGAGCTTTGCAAGAAGGACGCTTTATACGCTGATGCTATGGAATACGCCGCTGAGTCCCGTCAGGCAGATGTCGCTGAGGAACTGCTAGACTGGTTCCTTGAAAGACGCAACTACGAGTGCTTCTCGGCTACTTTGTACCAGTGTTACGACCTCTTGAAACCCGATGTAGTTATTGAACTGGCGTGGAGACATAATATCATGGATTTCGCAATGCCGTATCTCATCCAAACTGTACGCGAACTGACAACTAAAGTTGAAAAGTTGGAGGAGGCTGACGCCAAACGTAGCACAGAGAGCGCTGAACAAGAAGCCAAACCAGCAATGATTATGGAACCACAGCTTATGCTTACTGCCGGACCTTCAATGGCTTATCCGGGTGTACCGGCCCAGTCACCGTACGCTTACGCGGCGCAGGCACCGTCCCCGGCGCCCTACCACGGCTACGGCATGTAG

Protein sequence:

>DPOGS207010-PA
MAQVLPIRFQEHLQLTNIGINPASISFNTLTMESDKFICVREKVGDTSEVVIIDMADPTNPIRRPISADSAIMNPASKVIALKGKAGVEAQKTLQIFNIEMKSKMKAHTMTEDVVFWKWISPNTLALVTKISVYHWSMEGDSTPVKMFDRHSSLAECQIINYRTDPKQQWLLLVGISAQQNRVVGAMQLYSVERKCSQPIEGHAASFATFKAEGNAELSTLFCFAVRTAQGGKLHIIEVGQTPAGNQQFPKKAVDVFFPAEAQNDFPVAMQVSPKYDVIYLITKYGYIHMYDIETGTCIYMNRISSDTIFVTAPHESTGGIIGVNRKGQVLSVTVEEESIVPYINTVLQNPELALRLAVRNNLAGAEELFVRKFNMLFTNGQYGEAAKVAAMAPRGILRTPQTIQRFQQVPTQPGQTSPLLQYFGILLDQAQLNKFESLELCRPVLLQGRKQLLEKWLKEEKLECSEELGDLVKQVDPTLALSVYLRANVAAKVIQCFAETGQFQKIVLYAKKVGYTPDYIYLLRSVMRTNPEQGAGFAGMLVAEDPPLADINQIVDVFMEQNMVQQCTAFLLDALKNNRPEEGALQTRLLEMNLMSAPQVADAILGNGMFTHYDRAHVAQLCEKAGLLQRALEHYTDLYDIKRAVVHTHLLSADWLVSYFGTLSVEDSLECLKAMLQANIRQNLQICVQIATKYHEQLTTKALIELFEGFKTYEGLFYFLGSIVNFSQDSEVHFKYIQAACKTGQIKEVERICRESNCYNAERVKNFLKEAKLPDQLPLIIVCDRFDFVHDLVLYLYRNSLQKYIEIYVQKVNPSRLPVVVGGLLDVDCAEDIIKNLILVVRGQFSTDELVAEVEKRNRLKLLLPWLETRVHEGCNEPATHNALAKIYIDSNNNPERFLKENQWYDSRVVGRYCEKRDPHLACVAYERGQCDRELIAVCNDNSLFKTQARYLVRRRDQDLWLEVLAESNPYKRQLIDQVVQTALSETQDPEDISVTVKAFMTADLPNELIELLEKIVLDNSVFSDHRNLQNLLILTAIKADRTRVMEYINRLDNYDAPDIANIAINNELYEEAFAIFKKFDVNTSAIQVLIDQVKDLQRAYEFAERCNEPGVWSQLAKAQLQQGLVKEAIDSYIKADDPSAYMDVVDTATKQQSWEDLVRYLQASSGLLIRYINDLIMARKKARESYIESELIYAYARTGRLADLEEFISGPNHADIQKIGDRCFDDKMYNAAKLLYNNVSNFARLAITLVHLKEFQGAVDSARKANSTRTWKEVCFACVDAGEFRLAQMCGLHIVVHADELEDLINYYQDRGHFDELISLLEAALGLERAHMGMFTELAILYSKYKPAKMREHLELFWSRVNIPKVLRAAEQAHLWSELVFLYDKYEEYDNAALTMMQHPTEAWREGHFKDIITKVANMELYYKAIQFYLDYKPLLLNDLLLVLAPRMDHTRAVGFFTKAGHLQLVKAYLRSVQSLNNKAVNEALNSLLIDEEDYQGLRTSIDAFDNFDTIALAQQLEKHELTEFRRIAAYLYKGNNRWKQSVELCKKDALYADAMEYAAESRQADVAEELLDWFLERRNYECFSATLYQCYDLLKPDVVIELAWRHNIMDFAMPYLIQTVRELTTKVEKLEEADAKRSTESAEQEAKPAMIMEPQLMLTAGPSMAYPGVPAQSPYAYAAQAPSPAPYHGYGM-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: