生信圈Deepseek强势来袭!斯坦福、英伟达携手打造 400 亿参数生物 AI 模型,震撼开源

  • 生物信息学
  • Evo2
  • AI大模型
唯思派 昨天 14:20

近日, Evo2 AI 生物学模型横空出世,它由 Arc Institute、英伟达、斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的科学家们联合打造,一经发布便在学术界和产业界引起了巨大轰动,被视为生物科技领域的又一重大里程碑。

01、Evo2:生物领域的Deepseek

Evo 2 是迄今为止最大的公开 AI 生物学模型,也是生物学领域最大规模的全面开源模型之一。

从参数规模来看,其完整版拥有高达 400 亿参数,这一数字远超同类模型,使其具备强大的学习和处理能力。

研发团队在英伟达 DGX Cloud AI 平台上,使用2048个Nvidia H100 GPU进行训练,确保了 Evo2 能够高效处理海量数据,实现从数据到知识的深度转化。

在数据支撑方面,它覆盖了 12.8 万个物种的 9.3 万亿个核苷酸,这些数据涵盖了从人类到单细胞细菌和古细菌的生命之树,可以从头开始编写整个染色体和小基因组。它还可以理解现有的 DNA,包括与疾病相关的难以解释的「非编码」基因变体,为模型提供了丰富且全面的学习素材。

图:Evo 2 的模型架构、训练过程、数据集和评估的概述

与前代 Evo1 相比,Evo2 在各个维度都实现了质的飞跃,数据量从 70 亿参数规模跃升至 400 亿,训练数据量是 Evo1 的 30 倍,一次推理的核苷酸数量更是 Evo1 的 8 倍以上。

Evo2 在架构设计上也独具匠心,采用了 stripedhyena2 架构。与当前普遍使用的 transformer 架构不同,stripedhyena2 架构使模型不仅响应速度更快,还能更精准地捕捉基因组的相互作用,自主学习外显子 — 内含子边界以及转录因子结合位点等关键信息,从而为后续的分析和预测提供更坚实的基础。

Evo2 最令人瞩目的能力之一,便是它对 DNA、RNA 和蛋白质等生物分子语言的深度理解和处理。它能够一次分析长达一百万个核苷酸的序列长度,以往,研究人员面对冗长复杂的基因组序列时,往往需要耗费大量时间和精力进行分段研究,而 Evo2 的出现极大地提高了研究效率。

而作为基因组基础模型,Evo2 具备强大的生成和预测能力。在预测突变方面,Evo2 表现得尤为出色。以乳腺癌相关基因 BRCA1 的变体测试为例,它预测突变的准确率超过 90%,这一数据甚至超越了一些专门针对人类疾病数据训练的模型。此外,它还能深入理解非编码 DNA 的功能,为揭示生命奥秘打开了新的大门。

02、多领域的广泛应用前景

Evo 2 可以广泛应用于生物分子研究,精准医学、药物研发,合成生物等。

1. 推动精准医学发展

精准医学旨在根据患者的个体基因特征制定个性化的治疗方案,而 Evo2 无疑能够深入分析患者的基因组数据,精准识别与疾病相关的基因突变,为医生提供更准确的诊断依据和治疗建议。随着 Evo2 技术的不断完善和普及,未来精准医学有望迎来更大的突破,实现真正意义上的个性化医疗。

2. 优化药物研发与设计

药物研发是一个漫长、复杂且昂贵的过程,传统的药物研发模式往往需要耗费大量的时间和资金,且成功率较低。Evo2 的出现为药物研发带来了新的希望,它可以在多个环节加速药物研发进程。在药物靶点发现阶段,Evo2 能够通过分析大量的基因组数据,快速筛选出与疾病相关的潜在靶点,大大缩短了靶点发现的时间。

在药物设计环节,它不仅可以解读基因序列,还能设计新的基因组和生物分子,如蛋白质分子等。研究人员可以利用 Evo2 设计出针对特定疾病靶点的新型药物分子,提高药物研发的针对性和有效性。

3. 助力基因治疗

在基因治疗领域,Evo2 能够设计出仅在特定细胞类型中激活的基因元件,如新型转座子或基因开关,通过减轻脱靶效应提高基因治疗的安全性。

4. 辅助合成生物学

Evo2 在合成生物学领域可谓如鱼得水,凭借其强大的基因组生成能力,它可以设计出具有独特性能的生命体,填补自然界原本不存在的生态位。Evo2 还可以设计生产生物燃料的微生物,为解决能源危机提供新的思路;或者设计能够检测环境污染物的生物传感器,实现对环境的实时监测和保护。随着 Evo2 技术的不断发展,合成生物学有望迎来爆发式增长。

03、开源共享,推动生物科技进步

当前,Evo 2 项目已经完全开源!

研究团队在 github 上公开了训练数据、训练和推理代码以及模型权重。通过开源,不同地区、不同背景的科学家们可以基于 Evo2 进行二次开发和研究,加速技术的迭代和优化。这不仅有助于推动生物科技的整体发展,还能降低科研成本,让更多的研究机构和企业能够参与到生物 AI 的研究中来。

为了方便科学家们使用 Evo2,研究人员还开发了一个名为 Evo Designer 的在线 AI 平台。在这个平台上,科学家们只需输入基因组序列,就可以进行基因组生成以及预测等操作。平台还提供了丰富的工具和功能,如编码区域注释、3D 蛋白质可视化等,为科研工作提供了极大的便利。这种开源共享的模式不仅体现了科学精神的传承,也为生物科技领域的创新发展注入了源源不断的动力。

04、未来展望

展望未来,Evo2 的发展前景令人期待。

随着技术的不断进步,Evo2 的性能将进一步提升,其参数规模可能会继续扩大,数据处理能力和预测准确性也将不断提高。

在应用领域,Evo2 有望与其他新兴技术,如量子计算、纳米技术等深度融合,创造出更多的创新应用。例如,结合量子计算的强大算力,Evo2 可以在更短的时间内处理更复杂的生物问题;与纳米技术结合,能够实现更精准的基因编辑和药物递送。

Evo2 背后的研发团队 ——Acr 研究所,还展示了一个更为宏大的目标:模拟整个细胞。这意味着 Evo2 有望将基因组数据与表观遗传学、蛋白质组学等各类数据相结合,实现更大规模的生命编程。如果这一目标得以实现,人类对生命的理解和掌控将达到一个全新的高度,我们或许能够创造出全新的生命形式,解决目前难以攻克的医学难题,甚至改变整个生态系统的发展轨迹。

Evo2 的诞生标志着 AI 与生物学的融合进入了一个新的阶段,它为我们打开了一扇通往生物科技新纪元的大门。在享受技术带来的便利和机遇时,我们也必须高度重视伦理和安全问题,确保技术的发展符合人类的利益和价值观。相信在科学家们的共同努力下,Evo2 将为人类社会的发展带来更多的惊喜和福祉,推动生物科技不断迈向新的高峰。

开源地址:https://github.com/arcinstitute/evo2

网页地址:https://arcinstitute.org/tools/evo/evo-designer

【免责声明】发布内容来源于互联网、业内人士投稿以及微信公众号等公开资源,我们对文中观点持中立态度,文中观点不代表本平台的立场。所有文章仅供读者参考和交流使用。转载的文章版权归原作者所有,如有侵权行为,请及时与我们联系以便删除。

<END>