MonarchBase - Protein-coding gene

DPOGS213644
Transcript	DPOGS213644-TA	5292 bp
Protein	DPOGS213644-PA	1763 aa
Genomic position	DPSCF300165 - 50628-56912
RNAseq coverage	307x (Rank: top 37%)

Annotation
*Heliconius*	HMEL004592	0.0	56.78%
*Bombyx*	BGIBMGA004585-TA	0.0	51.31%
*Drosophila*			%
EBI UniRef50	UniRef50_G3LSH9	0.0	51.50%	Vitellogenin n=1 Tax=Cnaphalocrocis medinalis RepID=G3LSH9_9NEOP
NCBI RefSeq	NP_001037309.1	0.0	51.14%	vitellogenin precursor [Bombyx mori]
NCBI nr blastp	gi\|284808476	0.0	54.40%	vitellogenin [Actias selene]
NCBI nr blastx	gi\|284808476	0.0	54.57%	vitellogenin [Actias selene]

Group
Gene Ontology	GO:0005319	5.4e-211	lipid transporter activity
	GO:0006869	5.4e-211	lipid transport
KEGG pathway
InterPro domain	[29-721] IPR001747	5.4e-211	Lipid transport protein, N-terminal
	[394-753] IPR011030	1.5e-83	Vitellinogen, superhelical
	[29-306] IPR015816	8.4e-50	Vitellinogen, beta-sheet N-terminal
	[28-321] IPR015819	3.2e-49	Lipid transport protein, beta-sheet shell
	[778-1033] IPR015255	2.9e-24	Vitellinogen, open beta-sheet
	[1433-1599] IPR001846	2.1e-21	von Willebrand factor, type D domain
Orthology group	MCL11031		Insect specific

Nucleotide sequence:

>DPOGS213644-TA
ATGAAGCTGTTGGTCCTAGCGGCCACTATTGTGGTCGTTTCATCCGGTCAACTTAGTGACGTTGTTGTGGAGTCGCCATGGCCCTGGCAAGTCGGAAAATTATATCGCTACGATGTGGAAACACATACCCTGGCACGTTATTTAGACAGTTTCAGTTCGGGCAACGCTTTCAGAGCCAAGTTTACAGTGCGAGCTAAGTCAGACGGCTACCTACAGGCACGGTTGGAGAATCCAGAATATGCCAAAGTCTACCAAAAGCTAGAACAACACGATCCCATGCCAGAAGATCTGAAATACGTACCTGTGGCAAATTTGGACAAACCGTTTGAGATTTACATAGAAGGTGGAAGAATACTTTCAGTAAAATTACCATTTTCTGTAACACTCATGCAAGAAAACTTGATTAAAGGTCTAATCGGTTCGCTTCAAGTAGATCTCACCAGTCATCGTAATGTAAAAAGCTCCCATGACACGTACGATACTCAAGTACAACAGGGATTATTCCGCAAGATGGAAATCGATGTGACGGGCGATTGTGAAACTCTTTACACAGTATCTCCTGCTGCGTCTGAATGGAGACGTGAACTTCCCAGTTTTGCTTCCGACGATGAACCAATTGAAATAACTAAAAGCAAGAACTACGGTCATTGTCATCATCGTGTAGATTATCACTTCGGTGTACCGGAAGGAGCAGAATGGTCTGGCACTGCCCACAAAACTGGAAAGGAACAATTCATAAATCGTGCTACGGTCTCAAGAATGCTGGTTGGGAAGAATGGTCACATATACAAAGCTGAAACAACCAGTACGGTTACTGCTCATCCCCATTTATATGGGGAACAAAAGGCACAGGTACACGGCAAAGTGCGTTTTAATTTAATGTCGTATGAGGATGATAATGAACCGGCATGGGTATACCCCGAAGGTGCGCGTGAAGTTACCAACTTATTATATGCTTTGACGGCAAAACCAATTGATATCGGTGATAGTTCGTCGTCTGAAAAGTCTATAAAAATTGAGAAACATCCGAGGCAACGTCGCTCCAGTCGTATGAAATCTTTCGTCTCCATAAATAAGAAGATTGTTACTGAAACACATGGATCTTCCAGTTCCAGTGAATCAGACTCAGTATATGTAAATGATGACATTCCCAATATCAACGAACCCGCCTATGCTTCTCTCTATATGAACCCAGATCTTCATGGTGATAAGAAACAGAATCCCATGAATGCTCAGAAGCTTTTACAAGAAATCGCCCAACAATTGCAAAATCCGAACAATATGCCGAAAGCGGATACCTTATCCAAATTTAATATTCTAGTTCGTGTCATCGCCAGTATGAGTTATGGACAGCTCGGTCTGACAAGCCGCAGCATTGAAATTGCTAAGTTGGCTAATGATGTCGTGAAGTCTAACATGTGGATGATCTACAGAGATGCTGTCGCCCAAGCCGGTACTCTGCCCGCATTCCAACAGATAAAGGCTTGGATTGAAAGCAAAAAATTAGAAGGAGAAGAGGCGGCGGAAGTTATTTCCGTGCTTGCAGTATCTCTAAGGTATCCCACGAAGGTGGTCATGAAACAATTCTTTGATCTCGCCATGAACCCCGAGGTAACTAAACAGATGTTCCTTAATGACACTGCACTAATCGCTGCTGCTAAATTAATAAACATGGGACAAGTAAACAATGAAACTGTGCATCGTTACTATCCGACACATATGTACGGACGTCCATCACCTAAGGAAGATGCCTTCGTGATTAATGAAATTCTTCCCCGTCTGAGTCAGGAGCTTCAACTGGCTATTGAAAATGGGGATAGTCGAAAATCACAAGTATATATTAAGGCTATCGGCGAACTTGGTCACCCAGCTATCCTGGATATATTTAAACCGTACCTTGAAGGCAAAATTCCGGCTTCAACTTATCTTAGAACCAGAATCATAGAACATCTCTATGTTCTGGCCAAAGGAAGGGATGATTATGTACGTGCTGTGTTATTTAGCGTTTTGAAAAATACTGCTGAACCATATGAAGTAAGAGTAGCAGCCATCGATAAAATCTTTATGTCACGACCAAGTACAGCGATGATGATGGCAATGGCACAAATGACTAAAGACGATCCTAGTATCCAAATCCGTGCAGCGCTTAAATCGGCAATTACATCTGCATCAGAACTTAAAAATCCAAGATTCCATGACCTGGCAAGAACAGCAGCAGCTGTTAAGGATATGCTCACAAGTGAAGAGTTTGGTTTACAATACTCTGGTAAAAACTTCCTGGAACACTACGACAGGGATGAGCAACCAAGTTCTATGTCAGTACTCTCAAGACTGGGAAGCAAGGATAGTCTGCTTCCGAAATATTGGAGATATTCATGGAAAGGAAGAGACGGAGGTTGGGATCAAGAAACAGTTATCTCAGGAGCTGCTTCAAGTTGGCAGGAACTATTTGATCTCTTCGCAGATCAGATGTTTGGACAAAGAAAACCCGATCAATATCCCGAATACAATCCTAAATACTCCGCTGAAAAGATTGCTGACATGTTGAACGTAAAAAAAGACGACCGAGAATCATCAGAGGGCTCATTTTATATAAATTTACTAAATCAGAGGAGATACTTTGCTTTCAATGAAAATGATGTTAAAGAATTAGGCATTAAATTTCGCGAGTACTTAACAAATCTCAAAGACGTTGCTAAGCAATACACTAAAGTCGTTAACAGGAACCAAGTGTCAGTCATGTTCCCTATAGCTACAGGAGTACCATTTATTTATAAATATAAGGAACCGGTTCTCCTACATGTTCGTACTGTAACTAAAGGAAACGTTGATTTTAAGGATAGAGAGGAATATAGGTCTAGTGCTTCTATCAATAGCGAGCTGCGGATAATTTACGCTGAAAATCATGATGGCAATGTTGGTTTTCTAGACACTCTTGGTAATCAACTTGCAAGCGTTGGATTAGTGAGAAAAAGTCAACTTAATATTCCAATTAAAATAGATCTTGAAATGAAATCTGGAGAAGCGAAGTTCCATTTAAGTCCAATGGAACCCGAACAAGATAATACTATAGCTCATTACAGTGTTTGGCCATATTCCGCAAACCAAAAGAAGGACACTTTAACACCTATTTCTCAGGATCCTATATCAAGAGTTATTATGAGACCCGAAAAAGTAGCCCAGATTGATAGCAAGTTTGGACAAAACTTTGGATCCATATTCCAACTCCAGGGTTATTCTTATTCTGAAGATTACAGGTACATAGGAGACATGCTGAAGTCCTACAATTATTTAACTAGTATTATCAGGATGTTCAAGCAAAAAGATATAGCTCAAACTCACTTTAATCTGAGGTACTTGGGAAAGCAATCTAAGAACAAAGGAGTCACAATCACAGTAGCTTACGACACACTGTATAATCAGAAAGAAACAGGCGTTATGCCAATAACTGCATCGGATGTGAAGGACTCGACACCCAACAGTCCATCACGACGAGAGGAATTAATTAAACGTGTTATAGCTGGCATACAATCATCTAGAGCCCACGTCGTTGATTTGAGCGCAAAATTCGAGACAGAACAAAAATTGGAGTATACTGCGACCCTTGCAATCGGCGCGAGTGTCGTCGATCAAAAAATTCAGTTTGCTTTATTTGCTGGTAGAAACTCTGATCAATACGGATCAAATCAGTTAAATGCCGTAGGTAGAGTTACGAAACCATTGTCAGATTCCCCTATTAATTTCCAAAAAGCACTAGAAAAAGAACTGAAAATGGATTTTGAGGCCGATATCCTTTACAACCAGAAAGAAAATATCCACATTCTTGGCTCTGCCGAAAGAACAAAGAGATATATAGAAGAACTTCAGAAAGAACCACAAGTAAAGAGATGTCTTGAAAATTATGCCAGAGGTAATTATTACCAACACGACTGTCATGAAGCGGTTGTTATGGCCCATGCTCCAGACAACTTCAAATTCAGTGTAAGTTACAAAGACGTCAGCTCTGGGACTAAAAATGCTGCAGCCTACGCTTACAGAATTTTAGACGGGCTTAATTTATGGAGATCGGATATTAATATGGCAAAGACGTTACCTGCTGGAAAACTTGAATTGAACGTTGATGCTTTATACTGGACAAGAAATTTAAATCTTATTGTAAATTCTCGTTTTGGGGAATTGCGGGTAAACAATATACCTATACCTGAAGTTACTTCTAGAGCTGTGTCTATGTACTTACCGATCAGCGCCTATGAGCGAATTCTAAATTATTACACCTGGCATCAGTATCAACCATATTGCAGTGTGGACAGTAACAGGGTGAGGACCTTCAGTAACCGTGAATATGATTACACGCTGTCACCTTCCTGGCACGTAGTGATGCACGATGACAGACCCGGCAGAAACGAGGATTTAGTCGTGCTGTCCAGAAGACCTCAAGAAATGAAAATGCAAATATACTTATCTTACAGATCTTACACTGGCAAATACATAGAGATGGAAGTTCAACCAGCCCCGGACACTCAACAGAAGCACTCTGTTCAAGTCAAGACCAATGCCAAAAAAGTGTCTGAAGGAGAACTTACAACCTACTGGGACGACGTCAATGACAGTCCGTTACTTGAATACTACAGTACTGGCGACAATGTCTTAATGATCAAATTGCGTGAGAATCGTCTCAGAATCGTGTATGACGGAGAAAGGAGCGTAGTTCTTTCGAGAGACAACCGCAAAAACATCAGGGGAATTTGTGGAAGAATGAGCGGTGATCCTCGCGATGACTACCTAACACCTAGTGGTCTCGTAGATAAACCAGAATACTATGGAGCTTCCTACGCTCTTATTGAAGACGAGAATGATCCCAGAACACAAGAATTGCAATCGGAAGCTAAAAGAAAGGCGTACGAGCCAAGAAAACAATACACCACAATCTTGCAATCTGATAACAAATGGCAAAATGCTATGCTCTCTTCGTCTGAAGATGATTGGGACTCTCAGATCGTATACAGGGCAAGGAACTATGGAAAGAGTAAGGGAAAATGTAAAGTAGTCCCTCAAGTGCAGTATTATGAGAACCAATCACAGATCTGTATAACCACCAGTTCCTTACCGTCCTGCCAGTCTTCCTGTAGCGGAGGCAGCTACAAGATTCAGTCGACACAAGTTGTTTGCCGCTCCAAGCTGGACTCTCAATTCCAATCTTACAGAGATGAAATCAAACTAGGCAAAAGTCCCAAAGTCAGCGGAGAGCCGCGAACTGTAGACTACAGAGTCCCTAGTTCTTGCAAATCCTAA

Protein sequence:

>DPOGS213644-PA
MKLLVLAATIVVVSSGQLSDVVVESPWPWQVGKLYRYDVETHTLARYLDSFSSGNAFRAKFTVRAKSDGYLQARLENPEYAKVYQKLEQHDPMPEDLKYVPVANLDKPFEIYIEGGRILSVKLPFSVTLMQENLIKGLIGSLQVDLTSHRNVKSSHDTYDTQVQQGLFRKMEIDVTGDCETLYTVSPAASEWRRELPSFASDDEPIEITKSKNYGHCHHRVDYHFGVPEGAEWSGTAHKTGKEQFINRATVSRMLVGKNGHIYKAETTSTVTAHPHLYGEQKAQVHGKVRFNLMSYEDDNEPAWVYPEGAREVTNLLYALTAKPIDIGDSSSSEKSIKIEKHPRQRRSSRMKSFVSINKKIVTETHGSSSSSESDSVYVNDDIPNINEPAYASLYMNPDLHGDKKQNPMNAQKLLQEIAQQLQNPNNMPKADTLSKFNILVRVIASMSYGQLGLTSRSIEIAKLANDVVKSNMWMIYRDAVAQAGTLPAFQQIKAWIESKKLEGEEAAEVISVLAVSLRYPTKVVMKQFFDLAMNPEVTKQMFLNDTALIAAAKLINMGQVNNETVHRYYPTHMYGRPSPKEDAFVINEILPRLSQELQLAIENGDSRKSQVYIKAIGELGHPAILDIFKPYLEGKIPASTYLRTRIIEHLYVLAKGRDDYVRAVLFSVLKNTAEPYEVRVAAIDKIFMSRPSTAMMMAMAQMTKDDPSIQIRAALKSAITSASELKNPRFHDLARTAAAVKDMLTSEEFGLQYSGKNFLEHYDRDEQPSSMSVLSRLGSKDSLLPKYWRYSWKGRDGGWDQETVISGAASSWQELFDLFADQMFGQRKPDQYPEYNPKYSAEKIADMLNVKKDDRESSEGSFYINLLNQRRYFAFNENDVKELGIKFREYLTNLKDVAKQYTKVVNRNQVSVMFPIATGVPFIYKYKEPVLLHVRTVTKGNVDFKDREEYRSSASINSELRIIYAENHDGNVGFLDTLGNQLASVGLVRKSQLNIPIKIDLEMKSGEAKFHLSPMEPEQDNTIAHYSVWPYSANQKKDTLTPISQDPISRVIMRPEKVAQIDSKFGQNFGSIFQLQGYSYSEDYRYIGDMLKSYNYLTSIIRMFKQKDIAQTHFNLRYLGKQSKNKGVTITVAYDTLYNQKETGVMPITASDVKDSTPNSPSRREELIKRVIAGIQSSRAHVVDLSAKFETEQKLEYTATLAIGASVVDQKIQFALFAGRNSDQYGSNQLNAVGRVTKPLSDSPINFQKALEKELKMDFEADILYNQKENIHILGSAERTKRYIEELQKEPQVKRCLENYARGNYYQHDCHEAVVMAHAPDNFKFSVSYKDVSSGTKNAAAYAYRILDGLNLWRSDINMAKTLPAGKLELNVDALYWTRNLNLIVNSRFGELRVNNIPIPEVTSRAVSMYLPISAYERILNYYTWHQYQPYCSVDSNRVRTFSNREYDYTLSPSWHVVMHDDRPGRNEDLVVLSRRPQEMKMQIYLSYRSYTGKYIEMEVQPAPDTQQKHSVQVKTNAKKVSEGELTTYWDDVNDSPLLEYYSTGDNVLMIKLRENRLRIVYDGERSVVLSRDNRKNIRGICGRMSGDPRDDYLTPSGLVDKPEYYGASYALIEDENDPRTQELQSEAKRKAYEPRKQYTTILQSDNKWQNAMLSSSEDDWDSQIVYRARNYGKSKGKCKVVPQVQYYENQSQICITTSSLPSCQSSCSGGSYKIQSTQVVCRSKLDSQFQSYRDEIKLGKSPKVSGEPRTVDYRVPSSCKS-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: