AlphaFold 3简介
自2021年AlphaFold2横空出世,它便以颠覆性的力量改写了蛋白质结构预测的历史,让科学家们能够以前所未有的速度和精度探索生命的基本构件。而在科学不断进步的今天,Google的DeepMind团队再次引领潮流,推出了划时代的AlphaFold3。这一先进模型的登场,不仅仅是技术的迭代,更是一场对生物学研究深度的全面拓展。
AlphaFold3的卓越之处在于,它不仅延续了前作的辉煌,精准预测蛋白质的三维结构,更将视野扩展至整个生物分子领域,涵盖了核酸、小分子、离子,乃至化学修饰的复合体。在蛋白质-小分子、蛋白质-核酸、抗体-抗原等关键相互作用场景中,AlphaFold3展现出了惊人的准确性,为药物设计、疾病机理研究提供了强大的工具。
这一突破性的进展,得益于DeepMind团队不懈的努力和创新。更为重要的是,他们选择将这一强大的工具通过AlphaFold Server免费开放,让全球的研究者都能够轻松获取,极大地降低了科研的门槛,推动了科学知识的普及和共享。
2024年5月8日,这一革命性成果以《Accurate structure prediction of biomolecular interactions with AlphaFold3》为题,在《Nature》杂志上重磅发表,标志着结构生物学研究的一个全新阶段。AlphaFold3的问世,不仅让我们对生物分子相互作用的复杂网络有了更深刻的理解,更为未来的科学研究铺平了道路,让我们在揭示生命奥秘的征途上迈出了更为坚实的一步。
AlphaFold 3发展历程
2016年
DeepMind公司开发的AlphaGo击败韩国传奇围棋选手李世石后,其先进性与潜力受到认可,DeepMind决定成立团队开始研究蛋白质折叠问题。
2018年12月
AlphaFold1在43种蛋白质中成功预测25种蛋白质的结构,以最高分赢得第13届蛋白质结构预测技术关键评估(CASP)。AlphaFold 2在2020年的CASP上,以高于90%的准确率,再次将其他选手远远甩在身后。
2021年7月15日
DeepMind通过一篇《Nature》论文题为《Highly accurate protein structure prediction with AlphaFold》开源了其基于深度学习神经网络的AlphaFold2模型;
7月22日,DeepMind再次发表题为《Highly accurate protein structure prediction for the human proteome》的《Nature》论文,AlphaFold 2全面升级,DeepMind公司与欧洲生物信息研究所(EMBL-EBI)的合作团队宣布,基于UniProt数据库序列,AlphaFold预测出约100万个物种的2亿多个蛋白质结构,几乎涵盖了所有科学已知的蛋白质,推出AlphaFold DB(https://alphafold.ebi.ac.uk/)。
2023年10月底
Alphafold-latest发布,预测蛋白质结构更准,还在此基础上,将能力泛化到核酸、任意小分子配体等其他的生物分子结构的预测上,这意味着,使用AlphaFold的方法,可以对所有重要生物分子及其相互作用进行原子级精确结构预测。
2024年5月9日
谷歌DeepMind又一次更新了AlphaFold,推出了全新的生命分子结构的预测模型AlphaFold 3。AlphaFold 3直接将预测范围,从蛋白质结构扩展到所有生命分子结构,以及其相互作用,准确率也提高了一倍。
AlphaFold 3主要升级
以往的蛋白质结构预测方法是同源建模,更像一个流水线,由很多个模块构成。模块A处理完交给B,B处理完交给C,这导致每个步骤产生的误差会相互累积放大,导致最终的模型偏差比较大。而AlphaFold第1代是一个神经网络方法,它是“端到端”的,原来的流水线换成了一体成型的工艺,误差累积的问题被完美解决。初始的AlphaFold是一个很简单的模型,但在当时它的表现已经十分领先。
此后的AlphaFold 2更是做到了史无前例的准确。AlphaFold采用了经典的卷积神经网络架构,而Alphafold2则将能力更强的Transformer架构引入进来。有了更深更强网络的加持,AlphaFold2使人类第一次可以预测原子级分辨率的蛋白质结构。
在AlphaFold 2基础之上,AlphaFold 3改进了底层模型框架,转向“扩散技术”。扩散过程从原子云开始,经过多个步骤,最终形成最精确的分子结构。这一技术被主要用于OpenAI的DALL-E 2 和 Sora 的图像和视频生成领域,原理是逐渐做“减法”——从一张纯噪点图像开始逐渐降噪,直到“雕刻”出准确的预测图像。该方法使AlphaFold 3可以处理更大的输入集。
具体而言,AlphaFold 3主要是加入了通过Diffusion Model(扩散模型),以直接预测原子3D坐标的方式搭建模型,成功将AI对蛋白质预测的能力扩展到包括DNA,RNA等领域。它可以对蛋白质、DNA 和 RNA 等大型生物分子、小分子(配体)、甚至许多药物进行预测。
AlphaFold 3是通过设计了一个开创性的构架,将Transformer和Diffusion模型做了巧妙地结合,从而克服了AlphaFold 2的局限性,将蛋白质预测精度进一步提升,同时将预测范围扩大到其他分子上。
在底层架构更改的细节上,Alpha Fold 3 简化了遗传特征编码器(MSA module),成对残基关系编码器(Pairformer)也取代了原有的进化特征处理单元(Evoformer),增强了复杂相互作用模式的建模能力。在生成环节,结构生成器可以直接预测原子坐标,比原先以氨基酸为中心的方式提供了更高的灵活性和精度。
效果是显而易见的,AlphaFold3对于蛋白质与其他分子类型的相互作用的预测效果至少可以提高50% ,对于特定类别,预测精度提高一倍。在预测范围上,AlphaFold 3不仅能模拟蛋白质、DNA和RNA这样的大型生物分子,还能处理小分子,例如药物研发中的配体,实现联合预测和研究分子间相互作用。RoseTTAFold2NA只能处理一千个残基以下的结构,而AlphaFold 3可以处理残基倍数于此的结构。
上图为AF3的架构。矩形表示处理模块,箭头表示数据流向。黄色:输入数据,蓝色:抽象网络激活,绿色:输出数据。彩色代表分子物理原子坐标。
上图为Pairformer模块示意图,输入输出为pair对表示和single单表示,n为标记数量(聚合物残基和原子),c代表channel数量(对表示为128,单表示为384)。48个blocks中每一个都有一组独立的可训练参数。
给定一个分子输入列表,AlphaFold 3就能生成它们的联合三维结构,揭示它们是如何组合在一起的。它可以模拟蛋白质、DNA和RNA等大型生物分子以及小分子(也称为配体,包括许多药物)。此外,AlphaFold 3还能模拟这些分子的化学修饰,这些化学修饰控制着细胞的健康功能,一旦受到破坏就会导致疾病。
AlphaFold 3在预测类药物相互作用(包括蛋白质与配体的结合以及抗体与靶蛋白的结合)方面达到了前所未有的准确性。在PoseBusters基准测试中,AlphaFold 3的准确率比最佳传统方法高出50%,而且不需要输入任何结构信息,这使AlphaFold 3成为首个在生物分子结构预测方面超越基于物理学工具的人工智能系统。预测抗体与蛋白质结合的能力对于了解人体免疫反应的各个方面以及设计新的抗体至关重要。
AlphaFold 3结果预测示例
- AlphaFold 3成功地预测了冠状病毒OC43的刺突蛋白,预测的结果(绿色和黄色部分)与真实情况(灰色部分)高度吻合。
2. AlphaFold 3对分子复合物的预测:
复合物由蛋白质(蓝色)与DNA双螺旋(粉色)结合而成。预测的结果与通过实验艰苦发现的真实分子结构(灰色)近乎完美匹配。
3. AlphaFold 3对一个蛋白+RNA修饰分子复合物的预测,其中包含一个蓝色蛋白质、一根紫色RNA链、两个黄色离子,可见与真实灰色结构非常相似。
4. 酶分子复合体的预测:
AlphaFold 3预测的分子复合物由酶蛋白7BBV(蓝色)、离子(黄色球体)和单糖(黄色)组成,以及真实结构(灰色)
研究小组通过实验解开了三种TIM3蛋白与配体结合的晶体结构,以阐明其结构与活性关系。在此之前,TIM3的小分子结合晶体结构并不存在于PDB当中,因此没有进入AlphaFold 3的训练数据内。此外,研究人员通过实验发现这些配体与TIM3结合于一个之前未被发现的口袋当中。
接着,研究人员将TIM3蛋白质的原始序列和每个配体的SMILES信息输入至AlphaFold 3当中进行评估,除此外并没有提供AlphaFold 3任何关于蛋白质的结构、口袋等额外资讯。
AlphaFold 3对TIM3-配体复合物的结构预测与实验结果一致,并发现在实验中所观察到的结合口袋。
并且AlphaFold 3所预测的结合模式几乎与实验中的晶体结构完全一致,而所预测的无配体结构则显示了一个呈扁平和开放状态的不同口袋构象。AlphaFold 3在蛋白质有无配体的状态下显示不同的结构预测,表明它能够根据其他分子的存在,情境性地调整蛋白质结构。
AlphaFold 3实操
首先进入AlphaFold Server网站https://alphafoldserver.com/,该网站提供了访问AlphaFold3的网络服务,无需代码,通过上传数据即可完成高精度生物分子结构预测。
登录后跳转进AlphaFold Server的功能页面,剩余可提交的工作数量,初始都是20,每日都会刷新。接下来是数据输入框,可以选择多种分子类型,包括蛋白、DNA、RNA、配体和离子,其中蛋白、DNA、RNA只需要输入序列即可。
点击add entity即可添加一个输入框,完成复杂的互作。输入的序列之间不能有换行符、制表符或空格等一些符号,这里的输入仅仅接收字母序列。
输入完成后,点击Continue and preview job,弹出一个预览页面,点击Confirm and submit job,即完成任务提交。
最后会有一个预测结果显示界面,可以下载相关结果:蓝色越深表示预测的置信度越高,橙色越深则置信度越低。
下图是官方对于pLDDT、PAE、pTM和ipTM这四个值的解释:
置信度指标的评估:使用了模型预测的相互作用界面TM分数(interface predicted TM score,简称ipTM)作为置信度指标。通过将预测得到的ipTM分数进行分箱处理,并统计每个分数区间内的样本数量,将其与蛋白质-蛋白质对接的DockQ分数、蛋白质-核酸对接的iLDDT分数以及蛋白质-配体对接的成功率进行了比较。ipTM分数与这些指标之间存在显著的正相关性,即表明ipTM是一个有效的模型预测结果评价指标。
pLDDT指标的相似实验:除了ipTM之外,还对另一个置信度指标pLDDT进行了类似的实验。同样表明,pLDDT分数与模型预测的准确性之间存在正相关性,从而也验证了pLDDT是一个可靠的模型预测结果评价指标。
目前AlphaFold Server还是beta版本,需要登录谷歌账号。AlphaFold Server 无法预测水分子或氢原子,也无法识别膜蛋白的膜平面,并且不提供可能与药物结合的蛋白质结构,仍具有较大局限性。
局限性与挑战
论文中提到,AlphaFold 3 模型依然存在一些局限性,需要进一步的研究和改进。例如:
- 立体化学限制:1.手性问题:即使输入了正确的手性参考结构,AlphaFold3有时仍会输出违反手性的模型。尽管模型在PoseBusters基准测试中加入了手性违反的惩罚损失,但手性违反率仍有4.4%。2.原子重叠:在某些情况下,如蛋白-核酸复合物,模型可能会产生原子重叠的现象。尽管对这种重叠进行了惩罚以减轻问题,但这一现象并未完全消除。
- 虚假结构秩序影响:从非生成性的 AlphaFold2 模型转换到基于扩散的 AlphaFold3 模型,引入了在无序区域中产生虚假结构秩序(幻觉)的挑战。虽然幻觉区域通常被标记为低置信度,但它们可能缺乏 AlphaFold2 在无序区域中产生的典型丝带状外观。
- 预测准确性问题:对于某些目标,准确预测仍然具有挑战性。为获得最高精度,可能需要生成大量预测并对其进行排名,这增加了计算成本。特别是对于抗体-抗原复合物,预测质量随着模型种子的数量增加而显著提高。
- 结构构象限制:模型预测的结构构象可能不正确或不够全面,这取决于指定的配体和其他输入。
- 缺乏动态信息:模型主要预测生物分子系统的静态结构,而不是在溶液中的动态行为。
- 特定目标预测限制:对于某些特定类型的生物分子复合物,模型的预测可能存在局限性。
尽管在所有相互作用类型中实现高度准确的预测,仍然存在一些实质性挑战,但 AlphaFold 3 证明,可以构建一个深度学习系统,对所有这些相互作用显示出强大的覆盖和泛化能力。未来,实验结构测定方法的进步,如冷冻电镜和断层扫描技术的显著改进,将提供大量新训练数据,进一步改善这类模型的泛化能力。
而且,随着深度学习技术的不断发展,以及实验结构测定方法论的不断革新,结构建模将继续进步,推动我们进入一个结构信息驱动的生物理解和治疗开发的时代。
此外,AlphaFold3的模型是DeepMind和AI制药公司Isomorphic Labs共同开发的,虽然这项研究已发表在《Nature》杂志上,但并未公开底层代码,仅为该模型发布AlphaFlod Server 公共接口,该接口对可以进行实验的分子施加了限制,仅允许每位用户每天进行20次预测,且不提供可能与药物结合的蛋白质结构,引发了科学界的广泛批评。截至5月14日,已有超过650名研究人员联名签署公开信,表示对论文不提供代码感到失望,并批评期刊违背了其关于代码可用性的规定。
同样在5月14日,Google DeepMind的研发人员宣布,将在未来6个月内发布AlphaFold3(包括权重)模型,以供学术界使用。同时,网页版本的AlphaFold server使用限制也将从每人每天的10次提升到20次。
尽管存在这些局限性,AlphaFold 3的诞生,以及AlphaFold Server的开放,无疑仍是为我们开启了一扇通往未来的大门,其潜能之大,或许我们还未能完全勾勒。在这个AI与生物学交织的新时代,每个人都在热切期待,想要一睹AlphaFold 3将如何引领变革,带来怎样的科学奇迹。我们都在屏息以待,见证AI在生物学领域的一次次飞跃,期待那些即将揭晓的惊喜,将如何重塑我们对生命科学的认知。
参考文献:
- Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021). https://doi.org/10.1038/s41586-021-03819-2
- Tunyasuvunakool, K., Adler, J., Wu, Z. et al. Highly accurate protein structure prediction for the human proteome. Nature 596, 590–596 (2021). https://doi.org/10.1038/s41586-021-03828-1
- Abramson, J., Adler, J., Dunger, J. et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature 630, 493–500 (2024). https://doi.org/10.1038/s41586-024-07487-w
- Borkakoti, N. & Thornton, J. M. AlphaFold2 protein structure prediction: Implications for drug discovery. Curr. Opin. Struct. Biol. 78, 102526 (2023). https://doi.org/10.1016/j.sbi.2022.102526
- https://www.isomorphiclabs.com/articles/alphafold-3-predicts-the-structure-and-interactions-of-all-of-lifes-molecules
- https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/
- https://www.alphafoldserver.com/
- https://alphafoldserver.com/faq#how-can-i-interpret-confidence-metrics-to-check-the-accuracy-of-structures
- https://www.science.org/content/article/limits-access-deepmind-s-new-protein-program-trigger-backlash
来源:碳氢数科
声明:以上内容仅代表作者观点,如有不科学之处,欢迎指正。