MonarchBase - Protein-coding gene

DPOGS209125
Transcript	DPOGS209125-TA	4704 bp
Protein	DPOGS209125-PA	1567 aa
Genomic position	DPSCF300501 - 43891-56187
RNAseq coverage	18x (Rank: top 80%)

Annotation
*Heliconius*	HMEL016062	0.0	60.03%
*Bombyx*	BGIBMGA003286-TA	0.0	47.04%
*Drosophila*	fra-PA	2e-86	32.61%
EBI UniRef50	UniRef50_F4W5X3	5e-157	31.60%	Neogenin n=9 Tax=Formicidae RepID=F4W5X3_ACREC
NCBI RefSeq	XP_001122444.1	2e-151	30.69%	PREDICTED: similar to Neogenin precursor [Apis mellifera]
NCBI nr blastp	gi\|307195636	2e-162	32.26%	Neogenin [Harpegnathos saltator]
NCBI nr blastx	gi\|383854858	1e-163	32.36%	PREDICTED: LOW QUALITY PROTEIN: neogenin-like [Megachile rotundata]

Group
Gene Ontology	GO:0005515	1.3e-13	protein binding
	GO:0016021	2.7e-11	integral to membrane
KEGG pathway	oaa:100076606	8e-99
	K06766 (NEO1)	maps->	Cell adhesion molecules (CAMs)
InterPro domain	[425-491] IPR013783	1e-26	Immunoglobulin-like fold
	[558-651] IPR008957	6.5e-19	Fibronectin type III domain
	[293-400] IPR013098	6.2e-14	Immunoglobulin I-set
	[756-826] IPR003961	1.3e-13	Fibronectin, type III
	[1207-1271] IPR010560	2.7e-11	Neogenin, C-terminal
	[417-481] IPR003598	3.3e-11	Immunoglobulin subtype 2
	[299-401] IPR003599	8.2e-10	Immunoglobulin subtype
Orthology group	MCL10653		Multiple-copy universal gene

Nucleotide sequence:

>DPOGS209125-TA
ATGCTGTCCTGCGGAGCCGCGGCCCCCGCCAGGCTCAGTTGGAGGTACAGCGCCTCCGCCCCTCCGACCAGAGACCACAGCCTCCCACGAGCTGATAGCTTTAGGAAACAGTTGACGAACGGCTCCCTGCTTATAGAGAGAATGTCACCACCACTGGCCGGTCAGTACCAATGTGTGGCGACGGTAGATGGTATAGGTACCGTCGTGTCGCGAGTGGCCACTGTCTTCCTCGCTGAAGTGCCAGAGTTCCTGGAGGGTCCTCGTACTATGTCTGGTGTGCTCGGCTCCCCAGCACTCCTCCCGTGTTCCCTTAAGCTACCACTGCGTGTGGCTGTGAGGGTGATTGCTGCAGTCACTGAGAGGAGAGTGTATGGACCAAACAAGATACATGCACCGCCTCCTGTGTTGAAACTCAATGTGACATGGCTAAAGAACGGTTCGCCGGTCCAAGTGGAGGCCGCTCGTTTATACAGCACTGTCAGCGGAGCCCTGGAGATAGACCCTCTGAGGACGCACGACGCCGCCACATACAGATGTGCCGTCAGCCTCGCGCACACCAACAAACCACCAGTTCTGGGTCCGGAGATCGATCTCCGCGTGAACAGCGAGCTGGCGGGGATGGAGTCCGCGCCCAGGATACTCACCACGCCGCAGCCTGTCACGGTGACATGGCTAAAGAACGGTTCGCCGGTCCAAGTGGAGGCCGCTCGTTTATACAGCACTGTCAGCGGAGCCCTGGAGATAGACCCTCTGAGGACGCACGACGCCGCCACATACAGATGTGCCGTCAGCCTCGCGCACACCAACAAACCACCAGTTCTGGGTCCGGAGATCGATCTCCGCGTGAACAGCGAGCTGGCGGGGATGGAGTCCGCGCCCAGGATACTCACCACGCCGCAGCCTGTCACGGTCATAGAAGGCGCGTCCGTGACCTTCGACTGTGCGGCCACCGGCAACCCCAAGCCGGAGATCGTGTGGCTCAACAACGGCGTGGCCATAGACTTGAAGTACGTTCATAACCACCTCTTTACTCAGATCTGTTCCATGAGGTCTGTGTGTAGTGATCTAGACTCCCGTTTCTATCTGGTGGGGGGTGGCTCTCTCCGCGTGGTGTCGTCCCGGGCTCCGGACGCGGGCGCCTACACCTGCCGCGCCACCAACAGGATCGACGCCGCCGACCACTCCGCTCACCTCCACGTCCTGTCTCCCCCCCGCGTGTCGGTCCGCGACGGGTCGGTGGTGAGGGCGGTGACCCGCGGTGATGTCACTCTGAGATGCGACGCCCGCGGGCGACCGCCGCCAGTGGTGACGTGGCTGAAAGACGGGGAACCTCTCACACCGAACAACCACGACATCATGGTGGACGGGACCTCGCTGAGGATCAGGGGAGTGCTGGACGTGGACGAGGGAGTGTTCCAGTGTGTCGCGGCCTCGGCTGCCGGCAGCGCTGCCGCGGCGCTCAGGCTGATTGTGGCGCCGCACGCCGACCCCCTCCCCACGAACCTGACCCCTACCTTCCTGACCCCCGACCTCTACCCGGAAGATGTGGATTTCATCGGCGAGACGTCATCAGCGTTCACCCCCGAGCCTCTGTACGACGACTTAGATAACGTAGATTATTCCGAAGATCTGGACTCCTACGACGCGGGCAAGGGGAACGCGAGCGTGGTCTCCGCGCCCGGGGACTTCCGCGCCGTCATCGTCAAGCACCGCTTCGTGACGCTCAGCTGGACCGAGCCGAAACACGCGCTGGAAGAAGTCACCGGATACATCATACTGTATAAAGTGAAAGGAAGCGACCGGGAGCGTCTGTGGTCGGGCGAGGCTCGGCGGCGCGAGGCCGTGTTGGCGTCCCTGGCTCCTCGCACCACGTACACGGCGCGGGCCCTCGCCCTCACTCGCAGTGCAGCCTCGCCGCCGACAGAGACTATAGAGGTGACCACTCCTGACGAGGAGCTGTCCTACGGCCCTCCTCAGAACGTGTCGGTGGAGGCGGTGGGCGCTCACTCTCTGCGGGTGTGGTGGGCCCCGCCCGCGCCGCTCGGGCCTCACGTGCCGCCTGAGGTGCCGCCCGCCGCTCCTGGCCGATACGTCATATACTATACAGAGACGGAGAGTGGTCGCGAGCAGAGCCAGTACACCAACTCCACCAGCATCACCCTGAGCGGTCTGCGGGCGGCCACCGCCTACCGGGTGCGGGTGTCGGCGGGGGGAGGGGGGACCAGTGACGTCACCACCGCCACGCGAGCCGACGCCCCCTCCGCACCACCCACTGACGTCACCGTCATCCCCGCCACGGATACGTCGCTACTAGTCCGCTGGTCGGCCCCGGCCGGGCGCTCGCACCGCGGAGCCCTCACAGGATACAAGCTCCGGTACAGGACCCCCGGGGCGCGCCGCGCGGACTCGCTCACCACTCCCGCAGACACCACGCGGGCGGACCTCACAGGACTGGAACCCTCCACCACCTACCAGCTCGCGCCGGTCGCGACTGGATCTCCGTCTGGTGGGGCAGCGAGGAGGGCTCCAATACACCGGGGGGAGGGGGCCCGGGGGCAGGCGGGGCGGGCGGCGGAGCACCCGTGCGGGGGTACTGGCTGGGCTGGGGACTCGGCGTACCTGACTCACACTCCAGGGAACTGCCTGCGCATGCGCATTCACATCCTGCATCATGTCCGTGACCCAGAATCCAACTCGGAGTACGTGATATCTCTCCGCGCCAGCAACACGCTGGGTCTGGGCCCGGCGGTGTACGCGACCGTCCGCACCAAGCCCGACGACGGAGAAGACGAACCAGACGAGCCCGACCAGCCGGAGGACGACGCGCCGCCTCTCATCCCGCCCGTGGGGCTCAAGGTTATCATGCTGAGCGGCACCACCGCCGTCGTGTACTGGACCGACCCCACTCTACCCAAAGGACAGACGGCGGCGGACGGTCGACGGTACGCGGTGCGGTGGTCGGGCGGCGGACGGTCGCGCGTCTACAACGCTTCGGATCTTAATCTCATGTTGGACGATCTCAAACCTTACACGCACTACGAGTTCGCTGTCAAACTCATAAAAGGTGGTCGCGAATCTCCCTGGTCGATGCTGGCCAGCAACACGTCCCTGGAGGCAGCCCCGGGCTCCGCCCCCCGGGAGCTGCGCGTGTCCCCCGCGGCTCCAGCCTCCCGCGCCGCCGACTTAACGTGGAGTCCACCCGCCAAGCCCAACGGAGTCATCACAGGCATGTTGACACGGTATGTGATAATGTACGGCGTGTCCCGCGGGTCGGGCGCCGCCGAGGAGTGGTCGGCTCTGGCGGCTCCCGGGGAACGAGGCCGGGCCCGGGTGGACCGGCTCCGGGCGCGGACCACCTACAGCTTCAAGATACAGGCACGGAACAGTAGGGGACTGGGGCCCTTCAGCCCCGCCGTCACTTACACTACTGGGATTGAGAGCGGTGAAGGCGCGGGTCTGGCGAGCGCCACGTCCGCGTGGTTGTGGGCCAGTGCGGGAGGCGCCTGTGCCGTGCTGGCGCTCGCAGCAGCCCTCGCTCTGTCGCTGTGCTGCAGAAGGAACACGCCTCCCATGTCCCCGGACACCAGCACTTACCAGAAAGCGTCCGCGTCAGCTGGCATCAAGCCTCCAGACCTCTGGATCCACCACGACCAGATGGAGCTGAAGCACATGGACAAGAGCTTACACAGCTCAGCCAGTAAGATATCAGCGGGTAGCGTCGAAGGCAGCGCGTTGGTGTCGTCGACGTTGACCCTATCCCGCACCCCCCACCCCCACTCTCACCCTCACCCCTCCCAACATACGTCGGGTGTTTGGAGTAAGATGAACGAGATTGTTGGTCTTACAAACATTCGTTACGCCAATCGCCCTGTATATGTATACTTTGTGTTGCTTCCTCCCCTCCCTCCCGTGTATCCTGTCTGTATGTCTGTCTGTGTGCACGTAGACCGTCGCTCGTCGTCGGGCAGCGCGGACACCGCCCCGCTCCGAGCCTCGCCCCTCGACTACCGCTGCGACCTGCTAGCAATGACAGGGGTCGGCGTGGGCGTGGGCGTGGGCTGCACCGGCACCTGCGAGCGACGGAGACATCTAGCGGATCAGAGCACGCCGCTGTTGACGGGTGTAGCGCCGCTGGGGTCGCCGCAGTCCTCTCTGACGTCACATCCGCCCGCACCATGCGTGTCGGGTCAGTGTCCTCTGGGTACATGCTCGGCGCCAGGGTCCGAGGTGTACGCGAGCGCGTCCACAGCGCGGGAGCGAGGACACTACGTCGCCTACGAACCCCTGGGACATTACACGCACCGTGACTCCGTGAGTACGGACGCCGCAGCACCCGCGAGCACGGGCGCCGGAGGCTCCCTACAGAGGAGGGGCGCGTGCTCCGCCCTACACAGCTTCACGCTACCCGACAACGCGTCTGATCACAGCACGCCCTCACACTCCAAGGGAAGTGCGCGCGCGTCCTCCCCGTACAAGGCGAGTGCGTCGTCGTCCCCCGCACACACACACACGCACTCGCTCGCGCACACACACGCGCATGCTCTCAACAGACTGCAGCTCGGTGGTGGAGTGTCTCACAGCTCTGATGAGCTGGAGCCTCTCACTCCGTCCAGGTCCAGCGAGCGTCTCCACCGCGAGATGCAGAACCTGGAAGGGCTCATGAAGGACCTGTCGGCGATCACGCAGAACCAGTTCCACTGCTAG

Protein sequence:

>DPOGS209125-PA
MLSCGAAAPARLSWRYSASAPPTRDHSLPRADSFRKQLTNGSLLIERMSPPLAGQYQCVATVDGIGTVVSRVATVFLAEVPEFLEGPRTMSGVLGSPALLPCSLKLPLRVAVRVIAAVTERRVYGPNKIHAPPPVLKLNVTWLKNGSPVQVEAARLYSTVSGALEIDPLRTHDAATYRCAVSLAHTNKPPVLGPEIDLRVNSELAGMESAPRILTTPQPVTVTWLKNGSPVQVEAARLYSTVSGALEIDPLRTHDAATYRCAVSLAHTNKPPVLGPEIDLRVNSELAGMESAPRILTTPQPVTVIEGASVTFDCAATGNPKPEIVWLNNGVAIDLKYVHNHLFTQICSMRSVCSDLDSRFYLVGGGSLRVVSSRAPDAGAYTCRATNRIDAADHSAHLHVLSPPRVSVRDGSVVRAVTRGDVTLRCDARGRPPPVVTWLKDGEPLTPNNHDIMVDGTSLRIRGVLDVDEGVFQCVAASAAGSAAAALRLIVAPHADPLPTNLTPTFLTPDLYPEDVDFIGETSSAFTPEPLYDDLDNVDYSEDLDSYDAGKGNASVVSAPGDFRAVIVKHRFVTLSWTEPKHALEEVTGYIILYKVKGSDRERLWSGEARRREAVLASLAPRTTYTARALALTRSAASPPTETIEVTTPDEELSYGPPQNVSVEAVGAHSLRVWWAPPAPLGPHVPPEVPPAAPGRYVIYYTETESGREQSQYTNSTSITLSGLRAATAYRVRVSAGGGGTSDVTTATRADAPSAPPTDVTVIPATDTSLLVRWSAPAGRSHRGALTGYKLRYRTPGARRADSLTTPADTTRADLTGLEPSTTYQLAPVATGSPSGGAARRAPIHRGEGARGQAGRAAEHPCGGTGWAGDSAYLTHTPGNCLRMRIHILHHVRDPESNSEYVISLRASNTLGLGPAVYATVRTKPDDGEDEPDEPDQPEDDAPPLIPPVGLKVIMLSGTTAVVYWTDPTLPKGQTAADGRRYAVRWSGGGRSRVYNASDLNLMLDDLKPYTHYEFAVKLIKGGRESPWSMLASNTSLEAAPGSAPRELRVSPAAPASRAADLTWSPPAKPNGVITGMLTRYVIMYGVSRGSGAAEEWSALAAPGERGRARVDRLRARTTYSFKIQARNSRGLGPFSPAVTYTTGIESGEGAGLASATSAWLWASAGGACAVLALAAALALSLCCRRNTPPMSPDTSTYQKASASAGIKPPDLWIHHDQMELKHMDKSLHSSASKISAGSVEGSALVSSTLTLSRTPHPHSHPHPSQHTSGVWSKMNEIVGLTNIRYANRPVYVYFVLLPPLPPVYPVCMSVCVHVDRRSSSGSADTAPLRASPLDYRCDLLAMTGVGVGVGVGCTGTCERRRHLADQSTPLLTGVAPLGSPQSSLTSHPPAPCVSGQCPLGTCSAPGSEVYASASTARERGHYVAYEPLGHYTHRDSVSTDAAAPASTGAGGSLQRRGACSALHSFTLPDNASDHSTPSHSKGSARASSPYKASASSSPAHTHTHSLAHTHAHALNRLQLGGGVSHSSDELEPLTPSRSSERLHREMQNLEGLMKDLSAITQNQFHC-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: