MonarchBase - Protein-coding gene

DPOGS203693
Transcript	DPOGS203693-TA	3243 bp
Protein	DPOGS203693-PA	1080 aa
Genomic position	DPSCF300010 - 1826309-1940346
RNAseq coverage	54x (Rank: top 69%)

Annotation
*Heliconius*	HMEL013310	0.0	87.22%
*Bombyx*	BGIBMGA000351-TA	2e-62	36.39%
*Drosophila*	CG34347-PB	5e-119	56.30%
EBI UniRef50	UniRef50_E0VRU7	7e-144	44.80%	4.1 G protein, putative n=3 Tax=Neoptera RepID=E0VRU7_PEDHC
NCBI RefSeq	XP_970473.2	2e-153	45.52%	PREDICTED: similar to band 4.1-like protein 4A (NBL4 protein), putative [Tribolium castaneum]
NCBI nr blastp	gi\|189234071	4e-152	45.52%	PREDICTED: similar to band 4.1-like protein 4A (NBL4 protein), putative [Tribolium castaneum]
NCBI nr blastx	gi\|347966282	1e-179	44.37%	AGAP001632-PA [Anopheles gambiae str. PEST]

Group
Gene Ontology	GO:0005515	1.6e-25	protein binding
	GO:0005488	4.5e-24	binding
KEGG pathway	mmu:269587	6e-64
	K06107 (EPB41, 4.1R)	maps->	Tight junction
InterPro domain	[107-350] IPR019749	3.5e-49	Band 4.1 domain
	[345-437] IPR011993	1.6e-25	Pleckstrin homology-type
	[187-273] IPR014352	4.5e-24	FERM/acyl-CoA-binding protein, 3-helical bundle
	[190-273] IPR019748	5.5e-24	FERM central domain
	[357-439] IPR018980	2.1e-16	FERM, C-terminal PH-like domain
	[122-189] IPR018979	3.3e-16	FERM, N-terminal
	[141-153] IPR019750	2.7e-08	Band 4.1 family
Orthology group	MCL15344		Single-copy universal gene

Nucleotide sequence:

>DPOGS203693-TA
ATGATGGACTGCCTGTGTCCAGCGACACGTACGCTGGCCTGCCGTGTGGTTTTGTTGGACGAAAGAGAATTGATGCATGAGATACAGTCAGAGACGGACGTCCCGACGGACTCGAATGTGACAGTCTTTTCAATTTCACGGGATGATGAAACAACGCATGGATTTTTCTCCATTTCTATTCGCAGTTTTGAAGTGCAGCTATTCCGCGACGAATTATTTGAAGTACACCCAGGGGCTCAAGAAAGGTCTTTTATATGCGGATCTCGGGTCCAAGGTGCGGGCGATGAATTCACTGAATCAGATGAAGTACGAATTGGTCAGCAATTTGAGATCAAAGAAGTGGTGGAGCATTATAAAGAATATTGTCGCAGTAAAGACAATAACACAGGACAAGCACTACTGGATGTTGTATTCAGGCACCTAGATTTGCTGGAAACGGCATACTTCGGGCTTCGATACGTAGATCCAGACAACCAGACGCACTGGCTCGATGCTGGAAAACGACTACGCCGTCAATTGCGTGGCTCCGACACGCACACTTTCTACTTTGGCGTCAAGTTCTACGCCTCCGATCCCTGCAAACTCTTGGAGGAAATTACTCGGTACCAGTTATTCTTGCAGCTAAAACAAGACGTATTACGAGGTCGTCTTCCAGTCAACTTCGAGCTAGCCGCCGAACTCGCAGCATATGTATTACAGTCGGAATTAGGTGACTATGATCCCCGTCGACATACACTTGGCTACGTGTCAGAGTTTAGGCTGCTTGCTCATCAAACACCTGAATTCGAAGGAAGAGCTGCGGATATACACAGAACACTCACATTCTGTATAAGTATTTCTTTATGTACAGCGGAATTAGGTGACTATGATCCCCGTCGACATACACTTGGCTACGTGTCAGAATTTAGGCTGCTTGCTCATCAAACACCTGAATTCGAAGGAAGAGCTGCGGATATACACAGAACACTCACAGGTATATCACCAGCACAAGCGGAACTTAGTTACTTAGATAAAGTGAAATGGCTTGACATGTATGGTGTTGATCTTCATCCTGTTCTGGGCGAAGACAGCGTTGAGTACTTCTTGGGACTAGCGCCAAGTGGCCTGTTGCTCTTACGTGGAAAACATACAGTCGCTACCTATTACTGGCCGCGCGTATCAAAACTTTATTACAAAGGACGATATTTCATGATACGCGTAGCAGATAAAAATAATGACACGTCAACGTATGGTTTTGAATCCCCAACAAGAGCAGCCTGCCGGCATTTGTGGCGGTGTTGTTCTGATCATCATACTTTCTTTCGCTTACAACAAACATCACCTGCATCAGCAGATATATTTGCGTTAGGTTCAAGACTGAGAAATAGTAGTCGAGCTGCAAGACCACGTCCTCCGCCTGCGTTCACGCGAACACCCTCTCGAAGGATTTCCCGTCCACTAACATCTTATTCTTCGTTACACGACGTGCCAAAGTTAGAAGATTTGAGAATAAAAGACTGCCCTCCTGAAGTTAAACAGCCTTCCTCAGTGCACCGCCCTAATTCTATAAGCGGTGAAGGCCCTTGTGAGACTGTTGGTCCCGGCGGGTCACCTCGTTCAACTCGCTCGGCACCAACTCGACGTGGTCTATACTCGGCATCACCTACTACTCACAGGCCGCCACCAGTGCCAAGACACCGTTCAGCTTCAGTTGATTCTCAGAGTTCTAACGACTCGAGGTCCAACCGCAAACATAGGCACCGCTCTCGACGACAGCAGTCAGATGCAGAGAGTGAACTGTCCCGTGGTTCCGGACGCTCTGGGCGCAGACATCGCCGACACCGCTCTAGACACAAGCAGGAGTCCGGCTCAGAGAGAGATGATTCGCAACCAGACAACAAGGAATACGAGCTTGTCGACTCGGAATCTCAATGGAAGGAAGTATTAAGACAGACGTCAGCTGGAGGCAGCGTGCAAGTGGCAAATGTTCGTCGTTCACAAATGGAACCGGAGACAGGAACGCATCGATCGTCACACAGACCACGACGACATAAAAAACATAGGTCAAGATCCCGTTCACCGAACGAAAAGAAGTGGCTACCAAATGAATTAAAGCAACACCTCGAATTCTCTCTAGTGGATACTACAGGAATGACTGAGGAACAGCTGAAGGAGATACCCTATACTGTTGTGCAAACGAGCCAGGCTCGGCACACCAAACTAAGGACTTCATCTAAACACAGACAGACGGATCACGGTTCACTTGCAAGACGGGAGAAGAGCTCTTCGTCACACAAAAGTGACCACGACAACCACAATCAAGGGTCTCTCAGATCGATATCAAGCACACTCAGCACACATAGAACTACCAATGAAAAACATGGAAGGCGTTTGTATCCAAACTATGATGATTCTGTTGGACGGATCGGTGAAGATTATTTAGCTAACAATGGATATAAAACTTCAGTGACGCCATTACCGCATAATAACAATCCGTATAGTCCAGTAACCAACAGCAATAGTAATAGTTCCAGCGGAGAATTGATAGGAAGCGCAAGGGTATCACACGAACATACAGATTCTGGATTAGGCGCTGACCAGGATTACGCGTATTCCTCTGAAAGATCCAGTGACAGTGCAAAATGCGGCGGTGGAAGTTCACAGGCCCCAGTGAGTAGGCAGTGGCGTGTTGGTGGGGGGAGTATAGGGGGTGCGGGGTGCGGCGCGGGCGCATTAACCCGTCGGCCGCCGGCCGCGCCGGGTCGCGCGCGTCTCTCCGTGTCCGGCAGCCAGAGGTCGCTGTTGTCGGTCGCGAGTGACAGCGCCACGTCACGCCGCCCGCGCGACCTCGCGCCCCGCTGCTATCCAAGCCCTGCGGACGATGGCTTTTCTCTCTTCAGACATGCTAGCAACAACAACATAATGGGCGAGAGCGGATCTCTGGCGCGGCGGTACGCACGTCCGTCGAGGGAGTCGCGCGACTACAATGCGAACATCGCGCGCACGCACTCTCGTCTCGCTCATGCGCACGCGCACATGCGACATGACAACACACTCGACATTATATTAAAACCCCTGATAGAAAGCACGCACCCCCCGCCGGCGATTACCTACCTTGTGGCAGACCCCTCACGCGTCCCCCCCCGGGTGGGGGAGGGCTCTGTTGTGGCCGGAGCGCATGGCCATCTCTGGTCGTTGCTAGAGGTGTGCGTTGTGATGCTGGCGGTAGCACCCCTGCGCTGGCCGCCTGCCGCACACCCCTAG

Protein sequence:

>DPOGS203693-PA
MMDCLCPATRTLACRVVLLDERELMHEIQSETDVPTDSNVTVFSISRDDETTHGFFSISIRSFEVQLFRDELFEVHPGAQERSFICGSRVQGAGDEFTESDEVRIGQQFEIKEVVEHYKEYCRSKDNNTGQALLDVVFRHLDLLETAYFGLRYVDPDNQTHWLDAGKRLRRQLRGSDTHTFYFGVKFYASDPCKLLEEITRYQLFLQLKQDVLRGRLPVNFELAAELAAYVLQSELGDYDPRRHTLGYVSEFRLLAHQTPEFEGRAADIHRTLTFCISISLCTAELGDYDPRRHTLGYVSEFRLLAHQTPEFEGRAADIHRTLTGISPAQAELSYLDKVKWLDMYGVDLHPVLGEDSVEYFLGLAPSGLLLLRGKHTVATYYWPRVSKLYYKGRYFMIRVADKNNDTSTYGFESPTRAACRHLWRCCSDHHTFFRLQQTSPASADIFALGSRLRNSSRAARPRPPPAFTRTPSRRISRPLTSYSSLHDVPKLEDLRIKDCPPEVKQPSSVHRPNSISGEGPCETVGPGGSPRSTRSAPTRRGLYSASPTTHRPPPVPRHRSASVDSQSSNDSRSNRKHRHRSRRQQSDAESELSRGSGRSGRRHRRHRSRHKQESGSERDDSQPDNKEYELVDSESQWKEVLRQTSAGGSVQVANVRRSQMEPETGTHRSSHRPRRHKKHRSRSRSPNEKKWLPNELKQHLEFSLVDTTGMTEEQLKEIPYTVVQTSQARHTKLRTSSKHRQTDHGSLARREKSSSSHKSDHDNHNQGSLRSISSTLSTHRTTNEKHGRRLYPNYDDSVGRIGEDYLANNGYKTSVTPLPHNNNPYSPVTNSNSNSSSGELIGSARVSHEHTDSGLGADQDYAYSSERSSDSAKCGGGSSQAPVSRQWRVGGGSIGGAGCGAGALTRRPPAAPGRARLSVSGSQRSLLSVASDSATSRRPRDLAPRCYPSPADDGFSLFRHASNNNIMGESGSLARRYARPSRESRDYNANIARTHSRLAHAHAHMRHDNTLDIILKPLIESTHPPPAITYLVADPSRVPPRVGEGSVVAGAHGHLWSLLEVCVVMLAVAPLRWPPAAHP-

Monarch geneset OGS2.0

Nucleotide sequence:

Protein sequence: