AI for Biology:生成式 AI 驱动的蛋白质设计
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于 Ava Amini 授课内容整理 |
| 来源 | Microsoft / Ava Amini (Guest Lecture) |
| 日期 | 2025年春季 |

引言:AI 与生物学的交汇
本讲是 MIT 6.S191 (Introduction to Deep Learning) 2025 春季学期的最后一讲,由 Microsoft Research (MSR) 研究员 Ava Amini 作为特邀嘉宾授课。Amini 拥有横跨湿实验室生物学与计算科学的双重背景——本科和博士期间深耕细胞实验与动物模型研究,后期将对生物学的热情与计算方法结合,致力于以 AI 手段推动生命科学的前沿发展。
Microsoft Research (MSR) 的使命
MSR 的核心使命是"推进科学与技术前沿,造福人类" (advance the frontiers of science and technology to benefit humanity)。其研究以三个层次的视角展开:(1) 基础性、学术驱动的前沿研究;(2) 负责任且符合伦理的技术部署;(3) 对人类健康与自然科学发现产生积极影响。MSR 内部设有专门的 Biomedical Machine Learning (BioML) 团队,Amini 正是该团队的核心成员。
Amini 指出,生物学本质上是一个在纳米尺度运作的极端复杂系统。即便是单个细胞膜边界在 100 万倍放大下的科学可视化,也展现出惊人的结构丰富度——大量的蛋白质分子在其中承担各种功能。这种复杂性既是 AI 面临的巨大挑战,也是前所未有的机遇。
在 6.S191 课程中,学生已经学习了 预测建模 (predictive modeling) 和 生成建模 (generative modeling) 两大范式。当这一框架被应用于生物领域时,核心问题依然是预测与生成,但数据模态发生了根本性转变:
- 不再是自然语言文本,而是单个 生物分子的序列语言
- 不再是人脸或汽车图像,而是 细胞表征、组织图像、患者数据
- 预测目标变为:生物分子的功能是什么?细胞对药物如何响应?患者的临床疗效如何?
- 生成目标变为:给定目标功能,能否设计出实现该功能的生物分子?
AI for Biology 的核心双向范式
正向预测:给定生物分子 \(\rightarrow\) 预测其功能(分类、回归)。\ 反向设计:给定目标功能 \(\rightarrow\) 生成满足该功能的生物分子(生成模型)。\ 这两个方向互为补充,共同构成 AI 赋能生物学的完整闭环。关键在于,AI 的预测和设计最终都需要通过实验验证与自然世界对接——这是 AI for Biology 区别于纯计算领域的核心特征。
本讲的核心内容聚焦于生成式 AI 在蛋白质设计中的应用,特别是如何将 Diffusion Model(扩散模型)这一强大的生成建模框架从图像领域迁移到蛋白质序列的离散数据域,并介绍了 Amini 团队开发的 EvoDiff 模型。
本章小结
AI for Biology 是 AI 最具潜力的应用方向之一。该领域的核心范式包括预测建模和生成建模两大支柱,而其独特之处在于必须通过实验与自然世界对接。本讲聚焦于利用生成式 AI(特别是 Diffusion Model)来设计具有目标功能的蛋白质分子。
蛋白质基础:序列、结构与功能
蛋白质是生物学的"执行器"
蛋白质 (protein) 是一类极其多样的生物大分子,可以被视为生物学的执行器 (biology's actuators)——它们驱动和调控细胞中几乎所有的功能。蛋白质的功能范围极广,包括但不限于:
- 酶 (enzyme):催化特定的化学反应,包括基因组水平的编辑(如 CRISPR 相关蛋白)
- 结构蛋白:构成细胞骨架、细胞外基质等结构
- 信号蛋白:传递细胞间和细胞内的信号(如钙离子结合蛋白)
- 治疗性蛋白:如已获临床批准用于治疗白血病的蛋白质药物
- 转运蛋白:在细胞内外运输分子
蛋白质作为治疗药物
蛋白质不仅是天然的生物功能执行者,也可以被工程化设计为治疗性药物。例如,抗体药物(一种特殊的蛋白质)已被广泛用于癌症免疫治疗。Amini 在讲座中展示了一种已获临床批准、用于治疗特定类型白血病的蛋白质药物,说明蛋白质设计的临床转化价值已经得到验证。
蛋白质的三层表征层次
蛋白质的生物学可以通过三个层次来理解,形成一个从线性编码到三维结构再到生物功能的层级关系:
| 层次 | 描述 | 数据特征 |
|---|---|---|
| 序列 (Sequence) | 氨基酸的线性排列 | 离散符号序列,20 种氨基酸字母表 |
| 结构 (Structure) | 三维空间构象 | 连续坐标,原子级几何信息 |
| 功能 (Function) | 生物学活性与作用 | 多样化标注,难以量化 |
序列层:每个蛋白质由一条氨基酸 (amino acid) 序列定义。自然界存在 20 种标准氨基酸,每种可用单字母代码表示(如 A 代表丙氨酸 Alanine,G 代表甘氨酸 Glycine 等)。因此蛋白质序列可以被看作基于 20 个字符词汇表的一种"语言",这为使用 NLP 技术处理蛋白质数据提供了天然的类比基础。
结构层:氨基酸序列通过复杂的物理化学过程折叠 (folding) 为特定的三维结构。结构决定了蛋白质如何与其他分子相互作用,是功能实现的物理基础。
功能层:蛋白质的生物学功能(如催化、结合、信号传导等)通常由其结构所决定,而结构又由序列编码。
中心法则的反向工程
传统的蛋白质研究遵循 序列 \(\rightarrow\) 结构 \(\rightarrow\) 功能 的正向路径。然而,AI 驱动的蛋白质设计旨在反转这一范式:从我们期望的功能出发,逆向推导出实现该功能的序列。这正是生成式蛋白质设计的核心挑战:
现有的 AI 蛋白质工具
在蛋白质 AI 领域,已有大量工作针对序列-结构-功能管线的各个环节:
- 蛋白质语言模型 (Protein Language Models):如 ESM 系列,对蛋白质序列进行表征学习,捕获进化和功能信息
- 结构生成模型:如 RFdiffusion,能在结构空间中设计出自然界中不存在的新几何构型
- 序列到结构预测:如 AlphaFold,给定氨基酸序列预测其三维结构——这是近年来计算生物学领域最重大的突破之一
结构数据与序列数据的规模鸿沟
蛋白质领域存在严重的数据不对称:
- 序列数据:数亿乃至数十亿条独特蛋白质序列(来自基因组测序)
- 结构数据:仅约 30 万个实验解析的蛋白质结构(来自 PDB 数据库)
虽然 AlphaFold 可以预测结构,但那是计算预测而非实验测量。结构数据库中的蛋白质倾向于球状 (globular)、可溶性蛋白,富含 \(\alpha\)-helix 结构元素,导致基于结构数据训练的模型存在系统性偏差。
本章小结
蛋白质是连接序列编码与生物功能的核心生物大分子。理解蛋白质的序列-结构-功能三层层级关系,是构建 AI 蛋白质设计工具的基础。现有工具已能分别处理管线的各个环节,但实现从功能到序列的反向设计仍是开放挑战。数据层面,序列数据的丰富性远超结构数据,这一不对称性深刻影响着模型设计策略的选择。
Diffusion Model 回顾:从图像到生物
扩散模型的核心原理
在深入蛋白质设计之前,Amini 首先回顾了 Diffusion Model 的核心思想。扩散模型的基本原理是通过学习从噪声中恢复数据来实现生成,包含两个互逆的过程:
1. 前向加噪过程 (Forward Noising Process)
从原始数据空间(如图像)出发,通过迭代地添加噪声来逐步破坏数据:
其中:
- \(x_0\):原始干净数据
- \(x_t\):第 \(t\) 步加噪后的数据
- \(x_T\):经过 \(T\) 步后接近纯随机噪声
- 这一过程不需要训练,只是简单地逐步添加高斯噪声
2. 反向去噪过程 (Reverse Denoising Process)
训练一个神经网络来学习反向过程,从噪声中逐步恢复出数据:
训练任务可以被形式化为:给定时间步 \(t\) 的含噪数据 \(x_t\),预测更少噪声的版本 \(x_{t-1}\),或者等价地,预测残差噪声 \(\epsilon\):
其中:
- \(\epsilon\):实际添加的噪声
- \(\epsilon_\theta\):神经网络预测的噪声
- \(t\):随机采样的时间步
为什么 Diffusion Model 适合蛋白质设计?
Diffusion Model 在图像生成领域已展现出三大突破性优势:
- 生成质量:样本的逼真度和保真度极高
- 多样性:能覆盖数据分布的广泛区域,不会 mode collapse
- 可控性:支持条件生成,可以指定生成目标
这些特性恰好对应蛋白质设计的核心需求:生成的蛋白质需要生物学上可行(质量)、覆盖多样化功能(多样性)、并满足特定设计规格(可控性)。
从连续域到离散域的挑战
标准的 Diffusion Model 处理的是连续数据(如图像像素值),前向过程通过添加连续的高斯噪声实现。然而,蛋白质序列是离散数据——每个位置上是 20 种氨基酸中的一种——不能简单地"添加高斯噪声"到一个字符上。
这引出了一个关键的技术挑战:如何在离散数据上定义扩散过程?
本章小结
Diffusion Model 的核心是学习从噪声到数据的逆向过程。其在图像领域的成功为蛋白质设计提供了有力的范式借鉴,但蛋白质序列的离散性质要求对标准连续扩散框架进行根本性的改造。
离散扩散模型:蛋白质序列的加噪与去噪
离散数据的加噪策略
对于离散序列数据(如自然语言或蛋白质序列),Amini 提出了两种实现"噪声化"的策略:
策略一:Masking(遮蔽)
从干净序列出发,在每一步随机选择一个或多个位置,将对应的 token 替换为特殊的 [MASK] 标记:
| 步骤 | 序列状态 |
|---|---|
| \(t=0\) | This class is fun |
| \(t=1\) | This [MASK] is fun |
| \(t=2\) | [MASK] [MASK] is fun |
| \(t=3\) | [MASK] [MASK] [MASK] fun |
| \(t=4\) | [MASK] [MASK] [MASK] [MASK] |
策略二:Mutation(突变/替换)
不使用特殊标记,而是在每一步以一定概率将某些位置的 token 随机替换为词汇表中的其他 token:
| 步骤 | 序列状态 |
|---|---|
| \(t=0\) | This class is fun |
| \(t=1\) | This apple is fun |
| \(t=2\) | Rock apple is fun |
| \(t=3\) | Rock apple my fun |
| \(t=T\) | (完全随机的 token 序列) |
Mutation 比 Masking 更难
Mutation 策略对去噪模型的要求更高,因为模型无法通过特殊标记识别哪些位置被修改了——它需要自行判断哪些 token 是"错误的"并预测正确值。这在某种意义上更接近真实的进化突变过程,但也大大增加了训练难度。在 EvoDiff 中,两种策略都被采用和测试。
离散扩散的形式化
对于蛋白质序列 \(\mathbf{s} = (s_1, s_2, \ldots, s_L)\),其中 \(s_i \in \{A_1, A_2, \ldots, A_{20}\}\) 表示 20 种氨基酸之一:
前向过程:在每一步 \(t\),随机选择一个子集的位置 \(\mathcal{M}_t\),将这些位置上的氨基酸替换为 [MASK]:
反向过程:训练神经网络 \(f_\theta\),在每一步将一些被 mask 的位置恢复为正确的氨基酸:
生成时,从全 mask 序列 \(\mathbf{s}^{(T)} = (\texttt{[MASK]}, \texttt{[MASK]}, \ldots, \texttt{[MASK]})\) 出发,逐步去噪,最终得到一条完整的蛋白质序列。
离散扩散与语言模型的关系
Amini 指出一个深刻的理论联系:离散 Masking Diffusion 实际上是多种语言建模方案的泛化:
| 方法 | 解码顺序 | 每步预测 |
|---|---|---|
| Next Token Prediction (LLM) | 固定的从左到右 | 单个下一 token |
| Masked Language Model (BERT) | 全序列可见 | 一步填充所有 mask |
| Discrete Diffusion | 随机顺序,逐步 | 每步填充部分 mask |
离散扩散的泛化能力
离散扩散模型学习的是所有可能的解码顺序和所有可能的 masking 子集上的去噪任务。这使得它同时覆盖了:
- 自回归模型的"从左到右"解码(一种特殊的 masking 顺序)
- Masked Language Model 的"一步去噪"(一种特殊的步数设置)
因此,离散扩散模型是一个更加通用的框架,具有更强的灵活性和表达能力。
本章小结
将 Diffusion Model 从连续域迁移到离散域的关键在于重新定义"噪声"——通过 Masking 或 Mutation 对序列 token 进行逐步破坏。离散扩散框架在数学上统一了自回归模型和 Masked Language Model,为蛋白质序列建模提供了强大且灵活的工具。
EvoDiff:进化尺度的蛋白质序列扩散模型
模型概述与训练数据
EvoDiff 是 Amini 团队在 MSR 开发的基于离散扩散的蛋白质生成模型,专门为功能性蛋白质设计而构建。该项目由 Sarah Alamdari 主导开发,Amini 与同事 Kevin Yang 共同指导研究方向。
EvoDiff 的核心特征
- 模型类型:基于离散扩散(Discrete Diffusion)的生成模型
- 数据模态:蛋白质氨基酸序列(离散 token)
- 训练数据:约 5000 万条独特蛋白质序列,跨越进化尺度
- 核心能力:从全 mask 状态逐步去噪生成新的蛋白质序列
- 扩展能力:支持功能条件生成(motif scaffolding)
"进化尺度"意味着训练数据涵盖了生命树 (tree of life) 上不同生物体的蛋白质序列——从细菌到人类,包含了极其多样化的生物功能表征。这种广泛的数据覆盖使模型能够学习自然蛋白质的普遍分布规律。
两种序列输入模式
EvoDiff 支持两种序列输入模式,分别适用于不同的建模场景:
模式一:单序列 (Single Sequence)
直接对单条蛋白质序列进行离散扩散建模。适用于无条件的蛋白质从头设计 (de novo design)。
模式二:Multiple Sequence Alignment (MSA)
利用进化上下文信息。对于给定的目标序列,通过序列相似性搜索找到一组相关但不完全相同的进化同源序列,将这些序列对齐排列成一个矩阵(MSA),然后在整个 MSA 矩阵上执行离散扩散。
MSA 为什么能提供额外信息?
Multiple Sequence Alignment 是计算生物学中的经典概念。进化上相关的蛋白质序列虽然在某些位置发生了突变,但在功能关键的位置上往往高度保守。MSA 中的列级保守模式 (conservation pattern) 隐含地编码了哪些位置对功能至关重要这一关键信息。EvoDiff 的 MSA 模式通过联合建模多条相关序列,能够从进化信号中提取更丰富的先验知识,指导生成过程。
生成过程的可视化
EvoDiff 的生成过程可以直观地理解为:
- 初始化:全
[MASK]序列,长度为目标蛋白质的长度 - 迭代去噪:每一步,模型预测并填充一部分 mask 位置的氨基酸
- 序列成形:随着步骤推进,越来越多的位置被填充,序列逐渐成形
- 完成:所有位置都被填充,得到一条完整的蛋白质序列
Amini 在讲座中展示了一个动态可视化:左侧是 EvoDiff 序列模型的逐步生成过程,右侧同步展示了当前序列对应的预测三维结构。值得强调的是,EvoDiff 的学习和生成完全在序列空间进行,没有利用任何结构信息——右侧的结构仅用于最终可视化。
本章小结
EvoDiff 利用离散扩散框架,在约 5000 万条进化尺度的蛋白质序列上进行训练,支持单序列和 MSA 两种输入模式。模型完全在序列空间中操作,从全 mask 状态逐步去噪生成新蛋白质。MSA 模式通过引入进化上下文信息,为生成过程提供更丰富的先验知识。
EvoDiff 的评估:质量、多样性与功能验证
评估方法论
评估一个蛋白质生成模型远比评估图像生成模型复杂。Amini 强调,需要从多个层面审慎设计评估策略:
| 评估维度 | 核心问题 | 评估方法 |
|---|---|---|
| 个体质量 | 单个蛋白质是否生物学可行? | 结构预测 + self-consistency |
| 分布覆盖 | 生成样本是否覆盖数据分布? | 特征空间分布可视化与比较 |
| 功能实现 | 生成的蛋白质能否实现目标功能? | 实验室湿实验验证 |
不能仅看"准确率"
蛋白质生成模型的评估不能简化为单一的准确率指标。一个模型可能生成高质量的个体蛋白质,但如果所有生成的蛋白质都集中在功能空间的一个狭窄区域,那它作为设计工具的价值就大打折扣。因此,分布层面的多样性和功能层面的可验证性与个体质量同等重要。
个体质量评估:Self-Consistency
EvoDiff 采用了一种巧妙的 self-consistency 评估方法:
- 用 EvoDiff 生成一条新蛋白质序列 \(\mathbf{s}_{\text{gen}}\)
- 用结构预测工具(如 AlphaFold)预测 \(\mathbf{s}_{\text{gen}}\) 的三维结构 \(\mathcal{S}\)
- 从结构 \(\mathcal{S}\) 出发,推断一条能折叠为该结构的序列 \(\mathbf{s}_{\text{inv}}\)
- 计算 \(\mathbf{s}_{\text{gen}}\) 与 \(\mathbf{s}_{\text{inv}}\) 之间的一致性
如果一致性高,说明生成的序列能够稳定地折叠为一个确定的三维结构,是结构上可行的 (structurally realistic and consistent)。结果显示,EvoDiff 的生成蛋白质在结构一致性方面表现良好。
分布覆盖评估:与天然蛋白质的比较
为评估 EvoDiff 生成样本的多样性,团队进行了分布层面的分析:
- 取天然蛋白质测试集序列,用预训练模型提取特征向量
- 将特征向量通过降维方法(如 t-SNE 或 UMAP)投影到 2D 空间,得到天然蛋白质的分布
- 对 EvoDiff 生成的大量蛋白质(数千条)执行相同操作
- 叠加两个分布,评估覆盖程度
EvoDiff 的分布覆盖优势
与多种基线方法的对比显示了 EvoDiff 的显著优势:
- vs. Next Token Prediction 模型:两者覆盖范围大致相当,但 next token 模型略优
- vs. Masked 一步生成模型:EvoDiff 的覆盖范围明显更广,说明迭代去噪优于一步生成
- vs. 纯结构方法(如 RFdiffusion 等):结构方法展现出严重的偏差,大量样本集中在功能空间的狭窄区域
纯结构方法之所以存在严重偏差,根源在于结构数据的偏斜分布:实验解析的约 30 万个蛋白质结构中,球状蛋白和 \(\alpha\)-helix 丰富的蛋白质被过度代表。基于这些数据训练的模型自然会过采样 (oversample) 这些类型的蛋白质。而 EvoDiff 基于序列数据训练,数据量更大、覆盖更广,因此能更好地捕获天然蛋白质功能空间的多样性。
实验验证:从计算到实验室
最终的"黄金标准"评估是在实验室中进行湿实验验证。团队从 EvoDiff 的生成结果中采样候选蛋白质,进行了以下实验:
结构稳定性验证:
- 将完全人工设计的蛋白质序列进行生物表达(在细胞中合成蛋白质)
- 测量蛋白质的结构稳定性
- 结果:成功表达并验证了 4 个结构稳定的全新蛋白质设计
从计算设计到实验验证的完整闭环
AI 蛋白质设计的最终价值必须通过实验验证来证明。这涉及一个复杂的流程:(1) 计算模型生成候选序列;(2) 通过基因合成获得对应的 DNA;(3) 在细胞系统中表达蛋白质;(4) 纯化蛋白质;(5) 用物理化学手段(如圆二色谱、X 射线晶体学等)验证结构和功能。EvoDiff 团队完成了这一完整闭环,证明了模型的实际可用性。
本章小结
EvoDiff 的评估覆盖了个体质量、分布多样性和实验验证三个层次。在分布覆盖方面,EvoDiff 相较于纯结构方法展现出明显优势,这归因于序列数据在规模和多样性上的内在优势。最重要的是,EvoDiff 生成的蛋白质在实验室中被成功表达和结构验证,证明了模型的实际可用性。
功能条件生成:Motif Scaffolding 与生物学提示
从无条件生成到功能控制
EvoDiff 框架的真正威力在于功能条件生成 (conditional generation)——不仅能从头生成蛋白质,还能根据指定的功能约束来引导生成过程。这得益于离散扩散框架的天然灵活性。
核心思想是 Motif Scaffolding(功能基序的支架设计):
Motif Scaffolding 的核心概念
许多蛋白质的关键功能由序列中一个局部的子区域(称为 motif 或功能基序)所决定。例如,一个钙离子结合蛋白中,只有特定的几个氨基酸残基直接参与与钙离子的物理结合。
Motif Scaffolding 的目标:给定一个已知的功能 motif,设计一个全新的蛋白质序列来"支撑"(scaffold)这个 motif,使其能够在正确的三维空间位置上发挥功能。
这类似于自然语言处理中的 inpainting(填充)任务:给定序列中的一部分内容,让模型补全其余部分。
Inpainting 作为功能提示
EvoDiff 的 Motif Scaffolding 能力直接源于其训练目标。由于模型学习了所有可能的 masking 模式的去噪,它自然具备了以下能力:
- 接收一条部分已知的序列——已知部分是功能 motif,其余位置为
[MASK] - 仅对 mask 位置进行逐步去噪,保持 motif 部分不变
- 最终生成一条包含原始 motif 但其余部分全新的蛋白质序列
Amini 将这种能力类比为"生物学提示" (biological prompting)——功能 motif 就是给模型的"提示",模型基于这个提示生成满足功能约束的完整蛋白质。
案例研究:钙离子结合蛋白的设计
Amini 详细展示了一个具体的功能设计案例:
背景:天然存在一种蛋白质,其功能是结合钙离子 (Ca\(^{2+}\)) 并传递细胞信号。该蛋白质的完整序列中,有一段特定的子序列(绿色标记的 motif)直接负责与钙离子的物理结合和相互作用。
设计过程:
- 提取钙离子结合 motif 的序列片段作为"提示"
- 将 motif 放置在目标序列的对应位置,其余位置设为
[MASK] - 运行 EvoDiff 的条件生成流程,模型逐步填充 mask 位置
- 得到一条包含原始钙结合 motif 但整体序列全新的蛋白质设计
实验验证:
- 将 EvoDiff 设计的蛋白质(蓝色曲线)与天然蛋白质(灰色曲线)进行钙离子结合实验
- 结果表明,AI 设计的蛋白质成功展现出钙离子结合能力
- 这意味着 EvoDiff 不仅能生成结构可行的蛋白质,更能生成功能可行的蛋白质
功能验证仍处于早期阶段
Amini 坦诚指出,当前的功能验证实验虽然令人兴奋,但仍然是初步的"概念验证" (proof of concept)。从单个案例的成功到系统性的功能设计能力,还需要大量的后续工作。蛋白质设计的实验验证周期长、成本高,每一个成功案例背后可能有多个失败的尝试。
本章小结
EvoDiff 的离散扩散框架天然支持功能条件生成(Motif Scaffolding)——通过将已知的功能 motif 作为"生物学提示",指导模型生成包含该 motif 的全新蛋白质。钙离子结合蛋白的设计案例表明,EvoDiff 生成的蛋白质不仅结构可行,更能实现目标功能。这标志着 AI 驱动的功能性蛋白质设计迈出了重要的第一步。
从分子到细胞:跨尺度的 AI 生物学研究
超越蛋白质设计的更广阔图景
Amini 强调,蛋白质设计只是生物学 AI 这个更大图景中的一个层次。生物学是一个深度层级化的系统:
| 层级 | 对象 | 数据类型 | AI 任务 |
|---|---|---|---|
| 分子层 | 蛋白质、DNA | 序列、结构 | 分子设计、功能预测 |
| 细胞层 | 单细胞状态 | 转录组、蛋白组 | 细胞状态表征、扰动预测 |
| 组织层 | 组织切片 | 病理图像 | 疾病检测、分类、预后 |
| 个体层 | 患者数据 | 多组学、临床记录 | 精准医疗、疗效预测 |
MSR BioML 团队的研究跨越了所有这些层级,致力于开发能在不同尺度上推理的 AI 方法,最终将它们整合起来驱动对临床有影响力的决策。
序列与结构的融合方向
在蛋白质设计领域,团队正在积极探索序列与结构信息的联合建模。Amini 指出,序列和结构是互补的:
- 结构提供高分辨率的精确几何控制
- 序列提供更广泛的生物多样性覆盖
将两者结合的途径包括:将序列和结构映射到共同的表征空间、联合训练序列-结构生成模型等。
文本-蛋白质多模态
另一个前沿方向是蛋白质与自然语言的多模态对齐:
- 给定蛋白质序列/结构 \(\rightarrow\) 生成功能描述文本
- 给定功能描述文本 \(\rightarrow\) 设计满足描述的蛋白质
这朝着 Amini 在讲座开头描绘的愿景迈进:用自然语言提示(如"设计一个能靶向并结合乳腺癌细胞的蛋白质")来驱动蛋白质设计。
细胞尺度的 AI:理解疾病状态
在细胞层面,团队正在开发能够定义和表征细胞状态 (cellular states) 的 AI 方法。目标是理解疾病(特别是癌症)如何改变细胞状态,并利用这些信息来指导治疗策略的选择。
数字病理学:AI 驱动的组织图像分析
在组织层面,MSR 团队在数字病理学 (digital pathology) 领域取得了突破性进展——将计算机视觉方法应用于组织病理图像的分析,实现癌症的自动检测、分类和预后判断。
MSR 与 Broad Institute 的战略合作
MSR BioML 团队与 MIT 和 Harvard 的 Broad Institute 建立了长期战略研究合作。Broad Institute 是全球精准医学和基因组学研究的领军机构。双方的合作目标是将 AI 能力与顶尖的实验和临床资源紧密结合,实现从患者分子数据到 AI 预测再到实验验证再到临床应用的完整闭环。这种合作模式体现了 AI for Biology 领域中计算与实验缺一不可的核心特征。
本章小结
AI for Biology 的研究远不止蛋白质设计,而是跨越分子、细胞、组织、个体多个层级的系统性工程。MSR BioML 团队的工作覆盖从蛋白质序列/结构联合建模到数字病理学,最终目标是将多尺度的 AI 方法整合起来,驱动对临床实践有实质影响的精准医疗决策。
Q&A 精华:深度问答中的关键洞见
结构方法的偏差来源
Q:为什么纯结构方法的生成分布存在严重偏差?
A:根本原因在于结构数据的采样偏差。实验解析结构的蛋白质(PDB 数据库中约 30 万条)倾向于以下特征:
- 球状蛋白 (globular proteins):紧凑、可溶于水溶液,便于实验操作
- \(\alpha\)-helix 丰富:这类结构元素在已解析蛋白质中被过度代表
EvoDiff 的论文中提供了详细的数据支持:EvoDiff 的生成蛋白质能更好地涵盖 \(\alpha\)-helix 之外的其他结构元素(如 \(\beta\)-sheet 等),而纯结构方法则倾向于过采样富含 \(\alpha\)-helix 的蛋白质。
序列与结构融合的前景
Q:EvoDiff 未来是否可以整合结构信息?
A:是的,这是蛋白质 ML 领域的活跃研究方向。具体的融合策略包括:
- 将序列和结构映射到公共表征空间
- 构建联合的序列-结构生成模型
- 利用结构信息来约束和引导序列生成
两种数据模态是互补的:结构数据量小但提供精确的几何约束,序列数据量大且覆盖生物多样性的广度。将它们融合有望兼得两者的优势。
本章小结
Q&A 环节揭示了两个重要的技术洞见:(1) 结构数据的系统性偏差是纯结构方法的根本局限;(2) 序列与结构的融合是实现更强大蛋白质设计能力的必经之路。
总结与延伸
核心要点回顾
本讲从 AI 与生物学的交汇出发,深入介绍了生成式 AI 在蛋白质设计中的前沿应用,核心内容可以概括为以下几个层面:
- 生物学是 AI 最具影响力的应用领域之一:蛋白质作为生物学的"执行器",其设计能力的突破将深刻影响药物开发、酶工程、合成生物学等多个领域
- 蛋白质的序列-结构-功能三层层级是理解和操纵蛋白质的基本框架,AI 驱动的蛋白质设计旨在反转这一层级,从功能出发逆向设计序列
- Diffusion Model 可以从连续域迁移到离散域:通过 Masking 或 Mutation 策略定义离散数据上的加噪过程,建立了一套完整的离散扩散框架
- EvoDiff 是基于离散扩散的蛋白质序列生成模型:在约 5000 万条进化尺度序列上训练,支持无条件生成和功能条件生成(Motif Scaffolding)
- 实验验证是最终标准:EvoDiff 生成的蛋白质已在实验室中成功表达并验证了结构稳定性和功能活性(钙离子结合)
- AI for Biology 是跨尺度的系统工程:从分子到细胞到组织到个体,需要多模态 AI 方法的整合协作
离散扩散模型的理论意义
从深度学习理论的角度,本讲揭示了一个深刻的统一视角:离散 Masking Diffusion 框架在数学上统一了自回归语言模型和 Masked Language Model,是一个更通用的生成建模范式。这一理论贡献不仅对蛋白质设计有价值,对更广泛的离散数据生成任务(如分子设计、代码生成等)都具有启发意义。
关键挑战与未来方向
尽管 EvoDiff 展示了令人兴奋的初步成果,该领域仍面临重大挑战:
- 功能验证的可扩展性:当前的实验验证仍限于个案级别,如何将其扩展到系统级别是关键瓶颈
- 序列-结构-功能的联合建模:如何有效融合不同模态的信息,同时处理数据规模的巨大差异
- 自然语言驱动的设计接口:实现"用自然语言描述功能需求 \(\rightarrow\) 自动生成满足需求的蛋白质"的端到端系统
- 闭环实验优化:建立 AI 设计 \(\rightarrow\) 实验测试 \(\rightarrow\) 反馈优化的迭代闭环(active learning)
- 跨尺度整合:从分子设计到细胞响应到组织/患者级别效果的端到端建模
拓展阅读
- EvoDiff 论文:Alamdari et al., “Protein generation with evolutionary diffusion: sequence is all you need”, Nature Biotechnology, 2023
- AlphaFold:Jumper et al., “Highly accurate protein structure prediction with AlphaFold”, Nature, 2021
- RFdiffusion(结构扩散方法):Watson et al., “De novo design of protein structure and function with RFdiffusion”, Nature, 2023
- ESM 蛋白质语言模型:Lin et al., “Evolutionary-scale prediction of atomic-level protein structure with a language model”, Science, 2023
- 序列-结构联合建模综述:Wang et al., MSR 团队的综述论文(讲座中提到)
- MIT 6.S191 课程主页:http://introtodeeplearning.com/
- MSR BioML 团队:https://www.microsoft.com/en-us/research/