MonarchBase - Protein-coding gene

DPOGS215444
Transcript	DPOGS215444-TA	3915 bp
Protein	DPOGS215444-PA	1304 aa
Genomic position	DPSCF300298 + 99849-111248
RNAseq coverage	1359x (Rank: top 9%)

Annotation
*Heliconius*	HMEL016324	0.0	67.11%
*Bombyx*	BGIBMGA005736-TA	8e-173	61.81%
*Drosophila*	CG31999-PA	5e-79	34.76%
EBI UniRef50	UniRef50_E2BUT1	1e-119	31.88%	Fibrillin-2 n=5 Tax=Formicidae RepID=E2BUT1_HARSA
NCBI RefSeq	XP_001867489.1	3e-97	34.81%	fibulin 1 [Culex quinquefasciatus]
NCBI nr blastp	gi\|380026858	2e-123	27.68%	PREDICTED: fibrillin-2-like [Apis florea]
NCBI nr blastx	gi\|307180397	5e-159	28.58%	Fibrillin-2 [Camponotus floridanus]

Group
Gene Ontology	GO:0005509	4.4e-12	calcium ion binding
	GO:0005515	3.9e-05	protein binding
KEGG pathway
InterPro domain	[1087-1128] IPR001881	4.4e-12	EGF-like calcium-binding
	[1087-1127] IPR013091	6.7e-10	EGF calcium-binding
Orthology group	MCL11117		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS215444-TA
ATGAAGTTATTAGTGATGAATATAGTGCTGTGTGTTGTCAGGTTTTCAGTCCAGGGAGCTCTTACGTCAGAGGAAATAGTGGATATAACTGAAACATGCTGCAGTTACGGGGAGATGTTCCTGATGACTTCTCCGGACAAAGATTGTTCTAAACTAGGCACACCTGAAGATATTGAACCCGAACAGATGGAAGCTTGCAAACCAGCCGCAAAAACCTGCTGTGAACAGCAAATACTAAAAATAGACGAATGCAACGCTGGCATAAAGTGGGCTGTTGCAAAGAAATGTCAGACTCCTGAAGATGAAATTGGAAAGACATGTTGCGACGAGTGTTCATTTGGTCGTCTTGCTGGGACTCAGGGTAAGCAGGCCTGTGGAGATGAACCTTCGGAATTCTTGAGCCCTTTAACAGCTTTGAGAAAGATGGCCTATCATAAATGTTGTGTGGAAGCTGCGCAGGAATTAGAGACGACGACGGAGAAAAAGAAAGTAACTACAACCGAAAAACCAAAGGAAAAATGTAAGGCGAACTCTTGTGAGCATAATTGTTCGGACAGTGACGGCAAGGTCACGTGTCTGTGTAAAGATGGTTATAGACTTCAACAAGATAAAAAATCTTGTAAAGATATAAATGAATGTGCAGAAGCCGTAGATGACCTGTGCACAGATAAGGACACTGTGTGCCACAATACTGAGGGATCATTTAAATGTGTGCCTCTTAAGAAGCGAGATGTTGGCCTAAGTTGTCCTCCAGGATTTAAACGAAATGTCGTTAACCAAGTCTGTGACGATATTAATGAATGTCGTCTTCCAAGGCCCCCGTGTCCCAAATACCTTTGTGAAAACACTATCGGTGGTTACAAATGTGCCGGTAAAGTTGGAAAGCCTTACACAGAAGATGGTACAGGACCAACAACTGAGGCCGGAGCTTCAACTTCCTCGACAGTAAGAAATGATATCTGCCCGCCGGGTTTCAGAGCCGGCCCTGACGATGAATGCCTCGATATCGACGAGTGCGAGGAACATTTGGACGACTGCCAGCGTCTGTCACAATATTGTATTAACACTCACGGAAGCTATTTCTGCCAGGACCATGTCTCCAAGCGATGCGCTCCCGGCTTCAAGGTCAATAGTAACACTGGTATATGTGAAGATATCGACGAATGCGAAGAAAGCTCAGAAGTGTGCAAGCGAAACGAAGTTTGCATTAATCTGCCAGGAGCCTACAATTGCAAGTCGAAAATTAGTACACTACCAAAGCTGGCCACACAGAATTGCCAAGAAGGTACTCGCAGAAGAGGAAGCAGTTGCGAAGATATTGACGAATGTCGGGAAGGAACGCATTTGTGCGACCAGTTTCAGAACTGCATTAATACCTTCGCCGGACATGAATGTCGCTGTAAGAACGGTTTCGAGTTAGACTCTACATCTGGATCATGTGTAGATATTGATGAGTGCGCTCTAAAGTTAGACAACTGTGGATCAGAACTGCGTTGTTTGAATGTACTGGGTTCTTTCACTTGTACACGATCAACATCAACACCACCGGCCCCAGTTTATGAATATGAATATTACGACTCCGAAGAGGACAATTCAGTAATTCCAAGTCCAGAAACTACATCATCTACAACGACTTCAACCACAACATCTACAACTACGACAACGACCACGCCAAGACCGACCACAACCAGCTCTACTACTACTTCTACCAGACCATCCACCACACCGAAACCATACCAACCCAGAAGATACCCTAACACACCAAGAAGACCATTCTATCATAGATCTTCCACTTCTACCACCACTAGCACGACTTCAACAACTCCGCCACCGGTTCCAAAATATCCAGAATGGTCGGACTATCCAAGAGAAAACACAACTCCAAAAGAAGTAACAGTTCCAAAACCAGATATAACGAATGTTATCGAAACAGACAAAGAACCAGACGGCAGCTTTGTCCTCAACACCAATGATATCCCAAAGGACAGATGGACCAATGTTATAAACAGAGAGCATGAAAGGTTCAACCCAAACTGGTTACATTGTCTTGATGGATATGAGAGGAACGAACGGGGAGAATGCGTTGACATCAATGAATGCGGAGCCAATCGACATAGTTGCAGTTCCTTAGAGTACTGTATAAATACACCAGGAAGTTATGACTGCGAGTGTATTCCTGGTTTTGTGAGGGATCCATCCGGTTGGTGCGGTGTTGCCACTACTCCCAGTACTTCTCCATCACCACCAACTCAGAGACCAACCACCCTAAGGCTAACTACTTCAAAACCAACCACAACTTCAAGACCTACCACTACTCCAAGACCTACTAGACCACCTAGAATACCTGCGGCTAGACCCACTAGACCTATACCAAGAATAACTCCTAGGACTACAATTAGACCAACAACGACAAGCACTACATCAACGACGTCAACAACCTCACGTAGTACCAACACAAACGAAGTTGCTCCTCTAACACCAACGCCAGCCTGGTATCCGAGTCCATCACGTGGTCATCTCAGCCCTGTTAATTGCGAGCTAGGGTATACCTACAACCACAATGAAAGAAAATGTGTTGATATAGATGAATGTGCTACCCAAAGAGCTAGCTGTGGACCTACAGAGGACTGCGTAAATACAGAAGGAGGATATCGCTGCGAATGTGGCCCTAGATGTCTATCTCGCAGACAAAACACCTCTTATACTTACCACGACAACCCGCCAGTCATCAGTCCAGATTCCAATGTGATCACAATAGGCGCTCAGTACGGCCAGCGAGGGCCGAGGTACATGCGCCCGACATACAAGCGACTCCACGACACGGGATCTGTGCTTACTACATGTCCATGGGGATACAAACTTACACCAGATAGAGTTTGTATGGATTTGGATGAATGTGAGATGAATATCTCCGAGTGTGGCCCGCAGCAGCGTTGTGAAAACTTTTATGGAGGCTACTCGTGCCAATGTCCAGCCGGCCATTGGAGCAACGGCAAGCAATGTGATGACATCGATGAGTGCAGTTATGGCAATACATGCTCCTACAACGCGCGATGCATCAACACTGTCGGGTCCTACCGTTGTGAGTGTTCAGAGGGCTTCAGGAACGCTCCATCTAACGACAAAGTCTGCGTGGATGTAGACGAGTGCTCCGAGCCTGAACCTTTATGTGAACAAGTGTGCGTGAACGCTTGGGGGGGATACAGGTGCTATTGCAATAGGGGCTATAGACTCAGCAATGACAATCGGACTTGTACGGATGTAGATGAATGCGCAGAGTCAGGTTCCCGTATATGCACAGCTCAGTGCGTTAACACCGTGGGCTCCTATCGTTGCGCTTGCCCTTCAGGTTACCGACTGGCTGACGATAAACGATCTTGTCTAGATATTGACGAATGTGAAAATGGCCAGGCTCGCTGCGGTGGAGTGGGAGAGGTTTGTCAGAACACCCGCGGTGGCTACCACTGCCATCAGATAAAATGCCCGCCAGGGTACCGCCTCGAAGGAAAACACAAATGCGCTCGGATACAACGCTCGTGTCCAGTCTCGGACTGGTCGTGTCTTCAGCAACCGAGTACCTACAGCTACAATTTTATAACATTCGTCTCCAACTTGTATTTGCCTCTAGGAAGTGTGGATCTATTCTCTATGCAAGGTCCTGCATGGCGTGATGCTGTAGTGAACTTTGAGATGCGTCTCTTAGACGTGCAAGCGGCGCCTGGAGTCAAACCGGCAGATATCACGTGCTTTGGCATGAGGCCTAGTAGCAACGTCTGTGTGATCTCTCTCCAATGTTCCCTTCAAGGTCCACAAGTAGCTGAATTGGAACTAACCATGTCTCTATACCAAAGATCTATGTTCGCTGGCAACGCTGTCGCCAGACTAGTCGTGATCGTATCAGAATACGAGTACTAA

Protein sequence:

>DPOGS215444-PA
MKLLVMNIVLCVVRFSVQGALTSEEIVDITETCCSYGEMFLMTSPDKDCSKLGTPEDIEPEQMEACKPAAKTCCEQQILKIDECNAGIKWAVAKKCQTPEDEIGKTCCDECSFGRLAGTQGKQACGDEPSEFLSPLTALRKMAYHKCCVEAAQELETTTEKKKVTTTEKPKEKCKANSCEHNCSDSDGKVTCLCKDGYRLQQDKKSCKDINECAEAVDDLCTDKDTVCHNTEGSFKCVPLKKRDVGLSCPPGFKRNVVNQVCDDINECRLPRPPCPKYLCENTIGGYKCAGKVGKPYTEDGTGPTTEAGASTSSTVRNDICPPGFRAGPDDECLDIDECEEHLDDCQRLSQYCINTHGSYFCQDHVSKRCAPGFKVNSNTGICEDIDECEESSEVCKRNEVCINLPGAYNCKSKISTLPKLATQNCQEGTRRRGSSCEDIDECREGTHLCDQFQNCINTFAGHECRCKNGFELDSTSGSCVDIDECALKLDNCGSELRCLNVLGSFTCTRSTSTPPAPVYEYEYYDSEEDNSVIPSPETTSSTTTSTTTSTTTTTTTPRPTTTSSTTTSTRPSTTPKPYQPRRYPNTPRRPFYHRSSTSTTTSTTSTTPPPVPKYPEWSDYPRENTTPKEVTVPKPDITNVIETDKEPDGSFVLNTNDIPKDRWTNVINREHERFNPNWLHCLDGYERNERGECVDINECGANRHSCSSLEYCINTPGSYDCECIPGFVRDPSGWCGVATTPSTSPSPPTQRPTTLRLTTSKPTTTSRPTTTPRPTRPPRIPAARPTRPIPRITPRTTIRPTTTSTTSTTSTTSRSTNTNEVAPLTPTPAWYPSPSRGHLSPVNCELGYTYNHNERKCVDIDECATQRASCGPTEDCVNTEGGYRCECGPRCLSRRQNTSYTYHDNPPVISPDSNVITIGAQYGQRGPRYMRPTYKRLHDTGSVLTTCPWGYKLTPDRVCMDLDECEMNISECGPQQRCENFYGGYSCQCPAGHWSNGKQCDDIDECSYGNTCSYNARCINTVGSYRCECSEGFRNAPSNDKVCVDVDECSEPEPLCEQVCVNAWGGYRCYCNRGYRLSNDNRTCTDVDECAESGSRICTAQCVNTVGSYRCACPSGYRLADDKRSCLDIDECENGQARCGGVGEVCQNTRGGYHCHQIKCPPGYRLEGKHKCARIQRSCPVSDWSCLQQPSTYSYNFITFVSNLYLPLGSVDLFSMQGPAWRDAVVNFEMRLLDVQAAPGVKPADITCFGMRPSSNVCVISLQCSLQGPQVAELELTMSLYQRSMFAGNAVARLVVIVSEYEY-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: