MonarchBase - Protein-coding gene

DPOGS210349
Transcript	DPOGS210349-TA	3294 bp
Protein	DPOGS210349-PA	1097 aa
Genomic position	DPSCF300025 + 5683-11272
RNAseq coverage	71x (Rank: top 66%)

Annotation
*Heliconius*	HMEL013753	0.0	87.50%
*Bombyx*	BGIBMGA011911-TA	0.0	65.92%
*Drosophila*	CG32206-PB	2e-155	58.92%
EBI UniRef50	UniRef50_D6WXQ1	0.0	49.30%	Putative uncharacterized protein n=3 Tax=Tribolium castaneum RepID=D6WXQ1_TRICA
NCBI RefSeq	XP_973209.2	0.0	48.40%	PREDICTED: similar to AGAP006059-PA [Tribolium castaneum]
NCBI nr blastp	gi\|189240361	0.0	48.40%	PREDICTED: similar to AGAP006059-PA [Tribolium castaneum]
NCBI nr blastx	gi\|189240361	0.0	48.02%	PREDICTED: similar to AGAP006059-PA [Tribolium castaneum]

Group
Gene Ontology	GO:0005515	1.8e-09	protein binding
KEGG pathway
InterPro domain	[303-433] IPR000859	1.3e-13	CUB
	[116-154] IPR002172	1.8e-09	Low-density lipoprotein (LDL) receptor class A repeat
Orthology group	MCL15980		Insect specific

Nucleotide sequence:

>DPOGS210349-TA
ATGCTCATCGGAGCAGCGAGCAAGAGCAGCGAGCCGATCAATCCGGCAGCGGTGTGGACAGCAGCGCTCGGGTCGTGTTCCGCTCCGCGCCTGCGCCCAGCAGCACTCCTCGGCGCCCCTCTTCACCGTCGGCGGGCGCGCGCCGCGCTGCAGTGTGTCGCGGCATTACGTCACGAACGCATCCATCGTCATCGGAAGCTGTTTCAACACCAAAAGTCTGACACCGCGGACGTTAAAAGTTTAGTGTGGTGTTTAATGATCGCGTGCAGCATGTCAGCAGAAGGGAGGGTGTGGATGTGTCTGGTGCTGGCCTTGGCAGCTCTGTGGAGTCGCGCGGCCGCCGGCGGATGTGGCGTGGCGGAGTTCACGTGCCGTAGTGGAGCTTGCGTACGCCTCGATGCTTACTGCGACGGCGAAACGCAATGTCCTGATGGGAGTGATGAACCGCCACACTGCTCGGTTTGCAATCGGACGTATTACGGACGGATCGGCGTAGCTTATGGACTGGGACTGCGTGGAGCGCCGAGATCTCCTTTTCTGTGTCATCTCACGTTTACCGCTGGCGGAGGATCCCACGGAGATCTCGTTCAACTGGCTTTCGACGAGTTCCGTGTGGGTCGCTATGAATCGGGCGCCTTGGACGGGTGTCCTGATGGCTACATGCAGTTATCGGAACTGGGTCGTCCTTTCACTGGTGGCTCGTGGTGTGGTTCCGCAGAAGGTGTCGCTCTTTATTACAGTGAAACCGCAACAGTTACCGTATCAGTGAAGTTGTTTCGAGCTCGTCTTGGAGAACCTTTTGGTTTCAGACTAAGGTACAAGTTCCTTGCACAGCGTGATGCTATCGTAAGATTTGGAGCATTGGAAGCACCTTTGGAACGAGGGTCCGTGTCGCCTGGAACTTACTGTACGAGAACTTATGAGGAATGTCACCGAAAAGCCTGTCGCCTCCAGAGCCCCAACTACCCCGGCATGTACCCGAGAAATGTAACTTGTTACTGGAGTCTGCGTCAGAAGGACATCCCGACATGCAAGCATGCTATGATATCAGTTCGCCAGCTATATTCGCATAAAATGCAAATAAAACGTTCAATTTCGATGGCCAGTTTAAACAAGACGGGTCGTGCGGTGCGCGCGTGGCGCGAGTGTACGGGAGAGCGAGATCGCCTCATTTTCTATGACGGAGCGTCTACGGACGACCCCGTGCTGGTGGAGTATTGCGGCGGGGACTGGCTGCCTCCGGTCACTTCCCGGGGACCAGAGATGCTGGTTGCTTTCCACTCGTCCCCATTTAGCGCCCCTCCGCGGGCACCCACGCCACACGCACCACTCAGAGGATTTGAACTTGATGTAGACGTCATTTTCGCAGATTCTGATTCTCTAGATTATTCAAGGGAAGCAAAACGTTGTGAATTTCATGTTAAGGCTTCTTCGTCGGAGGAGGAATTTAATGCCACCACGGTAAATGTGAGAGGTCGCCGGGGACGTTTGCATGCACCGACTCACACGCTTCCACCCAATACTACATGCACTTGGACATTTCATGGTCGTCCTGGTGATCTGGTCTGGATCTATTTTTCGAGTTTTACACATTATTCTCTCGTGGAAGGACGACGGACGGAGAGTAACGAACGTGAAGATGACGCTGCAGTCACAGTAACTTCACGACATTTATCGGAGTATTCCCGTTCTGCTGGAGGGAGCGGCGTTTGCGCCGTGGAGCTTCGAATTTGGGACGGTGGTGGTGTAGACGAGGCTGCTGATCTTCTGGGTCACTACTGTGACTCTACACCCTCTCTCTGCGCTCGAGCCGCTCTCGCCAACGCCACGCGATCTCCTCGACCATGCGCACCTCCAGATGGCTACGTATCTGCGGCTGCACTAATGTCTCTCGCAGCTACATCACTTCCTGGTACCGCTACTCATCCCTTGGCATTCGTGATGCACTATGAATTTGTTGATGCTCGGTTAGAAGGTGTCCTGTTACCGATCTCGGAAACGCGTGTCCCAGTCGAGCCAGCGGAGTGTGCGAGGAGACTTACAGTACCTGGGGTATTTTCATCTCCTCGTAACGCATTGTGGTTCGGGCGTGGAGGTGCAAAAAGACTTCGCTGTGTATACAGATTACAAGTTGAAAGAGCTAGTATTGAATTACGTCTTTTAGCAGCAGCTTTTGGACGAGAGCCTAAATGTTCTACAAGAATAGATCCCTTAACGGGACGTTCGGCATGCATTCCTGATCCTATTGACCCTCTTGATCTAAGACCTAGTGATGCCCCCGTTGATTTCGATTATGATGAAAATCCATTACGCGTACCACATTTACGGATATACGAGTCACCTTGGCCAGGATATAGAGTACCTGTAGGATGTATATGTGATAATAGCAGTACACCTTTGATTATATCGAGCGGTGGCCCTTCAATGGAATTAGAACTGGTGGCCAGCACCTTGGCAGCGAACGAGGATCACCGCCACGTACACTTCCAAGGAGAGTGGGCCCGCGGCCCGGCCACCTCTGAGTGTGCTATAAGTCGCCGTCTGCCACCACCCGGGGCATCGGTGCGCCTTTTGCACCCATACAACGGGAATAAGATGTCAGAATGTGGAGAAACGCCTTTTCTGTTAGTGGCTCGAGGTAATCGCTCAGTATTTCTTCGAATCTGGGGCGAAGAATTGCCTGCTTCAGCTCCTACCTCCGAGGCACCATTATGTCACACAACAAATCGTGTTTTGGTTTACGAGTCTCATTCATCAAGATTACTAAAAGCAGTCTGTCCTGGTGGCGATGACTCACGAACAGTCCAAGTGTTCACCGAGGAATGGTGGGCCAGAAGCATCGGTCGTGAAGCCGCACTTATGGTGGTGTGGTCCGCAAGAGAGGCGGGATCCGCACGATTCACGTGGATGGAGGTCTGGCGGCCGGCAGGAGCGACTCCGGGAGCTGTTAGTGGAAACATTTCTTCGTGCGCTCACGAATGTGTGTCTCTGAGCGCTTGTATGGCGGGCGCGCTGTGGTGCGACGGTTCAGTGGATTGCCCAGGCGGCAGTGATGAGGCCGGCGCTTGCGGGGCGGGAGCACGACTTTTGGCAGCATTGGGTGCACCTGCGGCTGCCGGAGCAGCAGGCGCTTGCGGCGTAGCTGCGGCACTAGTGCTACTTGCCGCTTTAGCACTGCGCCGGCGCCGCTCTCGACGAGACAAACGCTTACTTGGTGCTCTGGCGGCCGGCCGCCGATTCACCGAAGAGCTTCTGTACGATGGATCACGTACGTCTTCAGTGACGTCATCTTGA

Protein sequence:

>DPOGS210349-PA
MLIGAASKSSEPINPAAVWTAALGSCSAPRLRPAALLGAPLHRRRARAALQCVAALRHERIHRHRKLFQHQKSDTADVKSLVWCLMIACSMSAEGRVWMCLVLALAALWSRAAAGGCGVAEFTCRSGACVRLDAYCDGETQCPDGSDEPPHCSVCNRTYYGRIGVAYGLGLRGAPRSPFLCHLTFTAGGGSHGDLVQLAFDEFRVGRYESGALDGCPDGYMQLSELGRPFTGGSWCGSAEGVALYYSETATVTVSVKLFRARLGEPFGFRLRYKFLAQRDAIVRFGALEAPLERGSVSPGTYCTRTYEECHRKACRLQSPNYPGMYPRNVTCYWSLRQKDIPTCKHAMISVRQLYSHKMQIKRSISMASLNKTGRAVRAWRECTGERDRLIFYDGASTDDPVLVEYCGGDWLPPVTSRGPEMLVAFHSSPFSAPPRAPTPHAPLRGFELDVDVIFADSDSLDYSREAKRCEFHVKASSSEEEFNATTVNVRGRRGRLHAPTHTLPPNTTCTWTFHGRPGDLVWIYFSSFTHYSLVEGRRTESNEREDDAAVTVTSRHLSEYSRSAGGSGVCAVELRIWDGGGVDEAADLLGHYCDSTPSLCARAALANATRSPRPCAPPDGYVSAAALMSLAATSLPGTATHPLAFVMHYEFVDARLEGVLLPISETRVPVEPAECARRLTVPGVFSSPRNALWFGRGGAKRLRCVYRLQVERASIELRLLAAAFGREPKCSTRIDPLTGRSACIPDPIDPLDLRPSDAPVDFDYDENPLRVPHLRIYESPWPGYRVPVGCICDNSSTPLIISSGGPSMELELVASTLAANEDHRHVHFQGEWARGPATSECAISRRLPPPGASVRLLHPYNGNKMSECGETPFLLVARGNRSVFLRIWGEELPASAPTSEAPLCHTTNRVLVYESHSSRLLKAVCPGGDDSRTVQVFTEEWWARSIGREAALMVVWSAREAGSARFTWMEVWRPAGATPGAVSGNISSCAHECVSLSACMAGALWCDGSVDCPGGSDEAGACGAGARLLAALGAPAAAGAAGACGVAAALVLLAALALRRRRSRRDKRLLGALAAGRRFTEELLYDGSRTSSVTSS-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: