立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 372|回复: 0

[分享] IBM加入AI蛋白质领域,发表集成大语言模型的算法框架优化酶设计

[复制链接]
发表于 2025-3-2 09:09 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×
IBM的研究团队近日在Bioinformatics发表研究文章,Integrating genetic algorithms and language models for enhanced enzyme design,《集成遗传算法和语言模型以增强酶设计》



研究背景
1.研究问题:这篇文章要解决的问题是如何优化酶的设计,以提高其催化效率和可行性。酶是自然界中优化到极致的分子机器,但其设计由于蛋白质空间的复杂性和序列、结构、功能之间的错综复杂关系而变得具有挑战性。
2.研究难点:该问题的研究难点包括:蛋白质序列空间的高基数使得优化过程复杂;传统优化方法容易陷入局部最优解。
3.相关工作:近年来,大型语言模型(LLMs)在处理和生成模仿人类写作的文本方面显示出前所未有的能力,并在化学和生物科学中得到了广泛应用。然而,LLMs在蛋白质设计中的应用受到高基数空间的限制。遗传算法(GAs)已被应用于广泛的复杂优化问题,但在蛋白质序列优化方面的应用尚未得到充分探索。

研究方法
这篇论文提出了一种结合大型语言模型(LLMs)和遗传算法(GAs)的框架,用于优化酶的设计。具体来说,
1.LLMs的使用:首先,LLMs在大量蛋白质序列数据集上进行训练,学习氨基酸残基与结构和功能之间的关系。然后,利用这些知识,LLMs指导生成一系列突变体。



2.遗传算法的应用:其次,生成的突变体通过遗传算法进行进化处理。遗传算法包括选择、交叉和变异三个阶段。在选择阶段,选择适应度评分高的序列进行后续修改;在交叉阶段,从选定序列中混合片段以产生新变体;通过迭代循环,逐步进化酶序列,最终实现催化性能的提升。
3.适应度函数:优化过程中使用两种适应度函数进行评估:可行性评分(fs)和周转数(Kcat)。可行性评分通过随机森林(RF)算法评估序列催化特定反应的可能性;Kcat值通过XGBoost算法预测,反映酶的催化效率。

实验设计
1.数据收集:数据来自BRENDA和UniProtKB数据库,经过清洗和标准化处理,最终得到119,000个样本。样本被标记为“报告”以指示已验证的底物-产物-酶关联,并通过随机生成的底物-产物-酶对进行增强。



2.突变生成:使用ESM-2模型进行突变生成,通过掩蔽蛋白质序列中的特定区域来模拟潜在的突变位点,并预测这些掩蔽残基的身份。每个突变位置生成三个潜在突变,选择最合适的氨基酸。
3.遗传算法优化:使用GA优化酶序列,评估突变体的适应度。可行性模型通过RF算法评估,Kcat模型通过XGBoost算法评估。优化过程中保持500的种群大小,限制优化至30代,保留每代中适应度评分前80%的序列。

结果与分析
1.突变策略效果:LLM策略在优化过程中表现出更快的收敛速度,且在允许更高程度序列变异的情况下,LLM策略的Wasserstein距离显著低于其他基于转移矩阵的策略。



2.优化结果:在105个生物催化反应中,LLM-GA框架生成的突变体在90%的实例中提高了反应的可行性。Kcat值的优化结果显示,优化后的酶在所有测试反应中均优于野生型酶。



3.结构验证:通过分子动力学(MD)模拟验证了优化酶的结构稳定性。模拟结果显示,突变体的主要二面角偏差较小,且与野生型酶的偏差没有显著趋势。




总体结论
这篇论文展示了一种结合大型语言模型和遗传算法的酶优化框架,能够有效识别和实施突变以提高蛋白质功能。该方法在105个生物催化反应数据集上验证了其有效性,显著提高了反应的可行性和酶的催化效率。分子动力学模拟进一步确认了优化酶的结构稳定性。该研究为计算生物催化剂的设计开辟了新的途径,有助于实现更高效和可持续的化学过程。

优点与创新
1.创新性框架:提出了一个结合大型语言模型(LLMs)和遗传算法(GAs)的新框架,用于加速酶设计。
2.数据集处理:使用了来自BRENDA和UniProtKB数据库的广泛数据集,经过清洗和标准化,确保了数据集的多样性和代表性。
3.突变生成策略:采用了基于ESM-2模型的突变生成策略,并通过Wasserstein距离评估了不同突变策略的效率,证明了LLMs策略在序列变异中的优越性。
4.多目标优化:同时优化了酶的可行性和催化效率(Kcat值),并在测试集中实现了100%的Kcat值提升。
5.分子动力学验证:通过分子动力学(MD)模拟验证了优化后酶的结构稳定性,确保突变不会显著改变蛋白质的结构。
6.模块化设计:框架设计高度模块化,可以集成多种性能指标进行酶性能的综合优化。
7.广泛应用:研究展示了该方法在不同酶类别和反应类型中的广泛应用潜力。

记录AI蛋白质设计在诺奖背后的人和事




原文地址:https://zhuanlan.zhihu.com/p/18688293693
楼主热帖
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表