MonarchBase - Protein-coding gene

DPOGS200545
Transcript	DPOGS200545-TA	4230 bp
Protein	DPOGS200545-PA	1409 aa
Genomic position	DPSCF300119 - 87268-96285
RNAseq coverage	3336x (Rank: top 4%)

Annotation
*Heliconius*	HMEL016868	0.0	57.91%
*Bombyx*	BGIBMGA010785-TA	0.0	51.97%
*Drosophila*	lqfR-PD	3e-139	32.11%
EBI UniRef50	UniRef50_UPI00020615F7	7e-155	32.21%	UPI00020615F7 related cluster n=1 Tax=unknown RepID=UPI00020615F7
NCBI RefSeq	XP_002073575.1	4e-161	31.59%	GK13071 [Drosophila willistoni]
NCBI nr blastp	gi\|195452958	8e-160	31.59%	GK13071 [Drosophila willistoni]
NCBI nr blastx	gi\|198452328	3e-167	32.45%	GA26538 [Drosophila pseudoobscura pseudoobscura]

Group
KEGG pathway	xtr:100216083	7e-36
	K12471 (EPN)	maps->	Endocytosis
InterPro domain	[22-163] IPR008942	1e-58	ENTH/VHS
	[25-152] IPR013809	6.7e-49	Epsin-like, N-terminal
	[24-148] IPR001026	5.8e-41	Epsin domain, N-terminal
	[971-1083] IPR019337	4e-26	Telomere length regulation protein, conserved domain
Orthology group	MCL11575		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS200545-TA
ATGGATCGTTTCATAAGTATGTGGAAAGTCAGGGAGCTGGCGGACAAGGTGACGAACGTGGTGATGAACTACACGGAGGTGGAGGGCAAGGTCCGGGAGGCGACCTCGGACGAGGCCTGGGGCCCCACCGGCCAACAGATGCAGGAGCTGGCGCTGGCGACCTTCACATACGAACACTTCCCGGAGGTCATGTCTATGTTGTGGAGGAGAATGTTACATGACAACAAAGCGCATTGGAGAAGGACTTACAAGTGCCTCCTCCTCCTCAGCTACCTGGTGAGGAACGGCTCCGAGCGAGTCGTGACCTCGGCCAGGGAACACATCTACGACCTGAGGTCGCTGGAGAACTACTCCTTCGTCGATGACTTGGGCAAGGACCAGGGCATCAACATAAGGCACAAGGTCCGCGAGCTGATCGACTTCATCCAGGACGACGACAAGCTGCGGGACGAGAGGAAGAAAGCCAAGAAGAACAAGGACAAGTACATAGACGACAAAGATAGAAACGAAGACGACTACGACAGAGAGGACTCGGACGGCGACGACGGACACACCAAACATAACAAAGAAAACGTGTACCGAGACTCCGAGGTGATAGACGAGTGTCCCGTCCCGGCCCGGGACAGCGAGTACACCTCCAGGACGCTCAACATCAGTCTGAGGAGTCCCGCCAGGAACAAGCAGAGCACGCCCGTCAAGAAGATAGACCTGGGAGCGGCGGCCAACTACGGCAAGACTCCCGGGGCTCCCCCCGCCCCCGCGGTGACGCCCGGCCCGCCCCTCACCTCTGGGACCCAGCAGTCACAGGAGCTGCTGGACGAGTTGTTCAAGACCTGCGCACAAACAGACAACACGCCGGCCGGAGAGGACGACTTCGACCCCAGGCACCCTTCAAGCAGACCGGTGAAGAACGATGACTTTGGAGATTTCAGCACAGCCTTCAGCGGAAACGGAAACGACGAGGGGTTCGCCGACTTCACCAGCGCCTTCCACAACAACAACACGCAGACAGTTTCAGCTCCCACCTCCAACCTCCAACTCCTGAGTGAGTTGTCCCCCGCGATGCCCAGTTTGACCCCCGGGTTGACCCCTGGACTAGCTCCGGGCCTGACCCCCGCCCTCGACCCCCTCTCCTCGCACTTCGACAGCGCTCTCAATATAACAGATGGTGACCGACCGACACACAGCGACCGGCTCAGGGCCGAGATGAAGAAGCTGGTTAACATACTACACGTGATGGAGAGGATCAAGAGCGAAGGAGACGTGGCCGACGTGAACGGAAGGATACAAGTCATAAAGAGATACCTCCCGGGGCCCGTCACCGTACAGAAGCTGTCCAGGTGTGACAGCAGGCTCATAGATCACGAGGCCTTGGAGGTGTTCTCCCAGCTGCTGGGCAGCATCGTCCGGGTTCTGTTACCGCATTGGCCGGAGTTCAGGGACGAAGTGGTGTATCTGTTCACGGTGGAGGAAGGCTTCGACGTTAGTAACGAGATACTCACTAACCTGTGCGGGTATGTCAAGGAGGACAGGAACGACGTGGTGCTGGAGGCTCTCGGATATGTGACGCTCAAGTTCGCAAAGAGCGACGCCGTGCTGGCCTCCATAATAGACTGCAGTGTGGCCGGAGAAGACGTGAGGCTCATGACAGACTGGGAGGGCTACGTCCAGTTGCTGACAACGCTACCCGAGAGGATAGCCAACAGACTGGAGATCAAGACTCCGATAGAGTTCTCTCACGAAAACTACTCGTTCATCCTCCTGTTCCAAGTGATCCGCTCCGTGGACTACATGTGTCAGAGCAACTTCTACCAGGGAACCCTGTATAATTTATCCTATTTATCGTACCTGGTGTCCAAATATGTCGTGTACTATATAAAGACGGAGGCCGTTCTGAAATTGTGCGACATGTTGATCGCCTGGACCGACGACAACAACGACGATCCCTACAGGTTCGTGAGGAGGAAGCTGATTCAGACGGTGCTGAATAAACTCAGCAGACAGGCGATCGACAAGCTGGCGCTGATCCTGCTCAAGAGATGTCCGATCGTATACAGCTCAAAAATCCAGCCGATTAAATTATTATTAGGGAATAACCTGGAGCTGAACAAGGACTGGCATGAGATACTCACCTTCAGGATACCGTTCTACGTGCATCCTCAGAACTTCAGGGACACCACCATCCCGGAGAACCTGGTTTACTACATTGCTACCACCAAGAACGCCCTGGACATACTCACCAACCTGATAGTGACGCTCGCAAAGACCTGGGCCGACGTTCATCTCAACAACGTCATCAACATAGACCACCACATGCACACCTCGGTGCTGCTCGTGCTGGCCATCAAGTACAGGATCATAATGTGGAGGCAGAGGAAGGGCGTCTGGAACCTAATCGAAATAAAGAGGATGCTATACAAGGGGATGTCCAAGCATCTAGACATACTCACCACGGAGTTCCGCTGTGTGGGGATGGCCACGGTCGAGATAGTCTGCAAGATGCTGGTCGAGGTGGACGACTCCGACCGCGCGGCTGTGGAGAGACTCAACTTCGAGTTCAACGAGTTGGGGCAAGTGTGCGTCGACATCTACAACACGCTGGTGACCATAACCAACAAGTGCGTGCTGGACGACCGAGCCAAGCCACCCACAGCCGAGCGGAGGCTCATCGACGCCCAGCAACTGATGGACGTTATAGCGGAGAAGGTCACGGACCACGTCGAGAAGCCCGTCCAGAACACGATAGTGACATGCGCTGTCAAGGGACCCCAGCAGACCAAGGAGATCGTCAAAACCATCATATCCGCCAAACTCGACGCTCTCAAGGGCGGCAGGAACCTGGACCTGGACTCCGACGACGACTTGCAGCCCTACGACATGACCAACGACGTCAGCGTCGCCTCCAAGAAGAAACCCAACTACCTGAGGGATCTGTTAGAGGTGGTCCGGGAAGCCAAGGATCAGGAGTCCTTTGAGGCCGCGCTCACCTCGGCAGAGAATCTCGTGAAGAAGCAACTGAAGCACGAAGACGGGAAGCTCGCCATCGAGCTGTTGGACCTGTTCGTGCACCTGGAGGAGAAGTACCACGTGGACAAGTTCAAGAGTCTGAAGTTCAACACGGCAGTGGCCATCGTATGCAGCCAGCCCAGGGTGTGCGCCGAGCATCTGTGCAAGGAGGTGCACAGCGACATCGGCCGCTACTCGATATCCACCAAGATATTCATGTTGGACGTGTTCACCGAGGCGGCCGAGAGGATCGCCGACATCAAGACGGACCCCTCGTACGAGATACACAAGAAGGCCGAGATCATCATCGAGGCCAAGGAGCTGCCGCGCGACGAGGTGCTGAGGCGGAGGCTGCTCAAGAAGACCAAGTTCATACACTCCAAGCGCGCCCACCCCTTCTCCAAAGCCAAGAAGAACCAGTTCGCCCCCGTGTCGGATTACTTCTTCTACCCGCTCATTGCCGGCTTCGGCTACCGCCAGCTGACGCTGAGCCACCACAACCTGAAGCAGGACATCGACAACCTGCTGCTGCTGCGCTACCTGTCGGCGGTGGGCAGCGTGGTGCTGGCCGCCAAGAACTGCCCCAAGTGTCCCGTGTACTGCCGCGAGATCCTGCAGATGGTGCTGTTCCTGCGCTTCACGCCGCACCCCGAGCTGCAGCTGTGCGTCATATCCATCATCGCGGCCATCGCCCTCGCCCTGCCGCAGTCCATGCTGAAGGGCGAGTTCTACGACGTGATGATGGAGCTGTGCTCGTGGGTCATCGACTTACTGACGCACGCCGACCTCTCGCACCGCCTCGGCGGACCCAAATCCGAGGCCACCGTGTTCGCCGGAGAATCACATGTACCTTCGACCCTCATAACTGTCGTTGACGCGCCATCGGTGAGTTTGCAGCCGAGCCTCCAGCCGTGTCGCCTGCAGCCGAACCCTCAGCCGATCCAGCCGAGCGCGGCTCTGTCCCAGCGGAGCGGCGCGGCCGCCGTCAACAACAACCAGTCGAAGCTGGCCCCCCGGCTGGGCGCCACGTGGGCGGACAGCGCGGCCTCCACCATCATCGACGTGGACAACCTGCTGTCCCCGCGCTCGCCCAAGGCTGGGCCCGCGCCCTCCATCAACCAGCTCAAGTCGAACCCCGCCAGTCCCGCCCACAGACCGGCCTGGCCCGTCGCCTCCAACAGCAACAACAACAACAACCTCACCACGGACGACCTGCTGCAATGA

Protein sequence:

>DPOGS200545-PA
MDRFISMWKVRELADKVTNVVMNYTEVEGKVREATSDEAWGPTGQQMQELALATFTYEHFPEVMSMLWRRMLHDNKAHWRRTYKCLLLLSYLVRNGSERVVTSAREHIYDLRSLENYSFVDDLGKDQGINIRHKVRELIDFIQDDDKLRDERKKAKKNKDKYIDDKDRNEDDYDREDSDGDDGHTKHNKENVYRDSEVIDECPVPARDSEYTSRTLNISLRSPARNKQSTPVKKIDLGAAANYGKTPGAPPAPAVTPGPPLTSGTQQSQELLDELFKTCAQTDNTPAGEDDFDPRHPSSRPVKNDDFGDFSTAFSGNGNDEGFADFTSAFHNNNTQTVSAPTSNLQLLSELSPAMPSLTPGLTPGLAPGLTPALDPLSSHFDSALNITDGDRPTHSDRLRAEMKKLVNILHVMERIKSEGDVADVNGRIQVIKRYLPGPVTVQKLSRCDSRLIDHEALEVFSQLLGSIVRVLLPHWPEFRDEVVYLFTVEEGFDVSNEILTNLCGYVKEDRNDVVLEALGYVTLKFAKSDAVLASIIDCSVAGEDVRLMTDWEGYVQLLTTLPERIANRLEIKTPIEFSHENYSFILLFQVIRSVDYMCQSNFYQGTLYNLSYLSYLVSKYVVYYIKTEAVLKLCDMLIAWTDDNNDDPYRFVRRKLIQTVLNKLSRQAIDKLALILLKRCPIVYSSKIQPIKLLLGNNLELNKDWHEILTFRIPFYVHPQNFRDTTIPENLVYYIATTKNALDILTNLIVTLAKTWADVHLNNVINIDHHMHTSVLLVLAIKYRIIMWRQRKGVWNLIEIKRMLYKGMSKHLDILTTEFRCVGMATVEIVCKMLVEVDDSDRAAVERLNFEFNELGQVCVDIYNTLVTITNKCVLDDRAKPPTAERRLIDAQQLMDVIAEKVTDHVEKPVQNTIVTCAVKGPQQTKEIVKTIISAKLDALKGGRNLDLDSDDDLQPYDMTNDVSVASKKKPNYLRDLLEVVREAKDQESFEAALTSAENLVKKQLKHEDGKLAIELLDLFVHLEEKYHVDKFKSLKFNTAVAIVCSQPRVCAEHLCKEVHSDIGRYSISTKIFMLDVFTEAAERIADIKTDPSYEIHKKAEIIIEAKELPRDEVLRRRLLKKTKFIHSKRAHPFSKAKKNQFAPVSDYFFYPLIAGFGYRQLTLSHHNLKQDIDNLLLLRYLSAVGSVVLAAKNCPKCPVYCREILQMVLFLRFTPHPELQLCVISIIAAIALALPQSMLKGEFYDVMMELCSWVIDLLTHADLSHRLGGPKSEATVFAGESHVPSTLITVVDAPSVSLQPSLQPCRLQPNPQPIQPSAALSQRSGAAAVNNNQSKLAPRLGATWADSAASTIIDVDNLLSPRSPKAGPAPSINQLKSNPASPAHRPAWPVASNSNNNNNLTTDDLLQ-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: