[CS25 V5] Multimodal World Models for Drug Discovery — Eshed Margalit, Noetik

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford CS25: Transformers United V5
日期	Spring 2025

引言：用 AI 构建癌症的世界模型

Eshed Margalit 在斯坦福完成了神经科学 PhD（研究灵长类视觉系统），目前是 Noetik 的 ML 科学家。Noetik 是一家 AI-native 生物科技创业公司，专注于利用多模态 Transformer 进行癌症药物发现。

本讲的核心论点是：多模态机器学习不仅是 AI 研究的前沿方向，癌症生物学更是一个独特且极其丰富的多模态学习基底——其数据的多样性和复杂性为基础 ML 研究提供了难得的研究场景。

讲者背景

Eshed 的学术训练是计算神经科学，而非癌症免疫学。他的广泛兴趣在于理解复杂生物系统如何被组装、如何正常工作、以及如何失灵。这种跨领域视角是本讲的重要特色。

世界模型框架

什么是世界模型？

AI 的一个统一目标是构建世界模型（World Model）——一个能够模拟世界未来状态的系统：

基于对世界当前状态的观测
预测如果执行某个动作，世界将如何变化

这个框架天然是多模态的——人类通过视觉、听觉、触觉等多种感官来感知世界并做出决策。最好的世界模型应当能够整合所有这些模态的信息。

多模态学习的两种动机

翻译 vs.\ 互补

多模态翻译：将一种模态的信息转换为另一种模态（如图像描述、语音转文字）
多模态互补：不同模态提供关于同一现实的互补信息，组合后能提供单一模态无法达到的预测能力

Noetik 更关注第二种——癌症生物学中，不同数据模态揭示肿瘤的不同方面，只有组合起来才能做出有效的治疗预测。

本章小结

世界模型框架为多模态学习提供了统一的思考方式，而多模态互补（而非仅仅是翻译）是癌症药物发现的关键需求。

癌症免疫学速成

免疫治疗的基本原理

癌症免疫治疗核心思想

人体免疫系统本身具有检测和摧毁癌细胞的能力，但肿瘤会进化出逃避或抑制免疫系统的机制。免疫治疗的目标是消除这些免疫逃逸机制，帮助免疫细胞恢复其抗肿瘤功能。

药物发现的两个方向

发现新药物：找到前所未有的治疗手段
精准匹配：许多已有药物在临床试验中因为患者响应不一而“失败”——并非药物无效，而是缺乏将正确药物匹配给正确患者的能力

两个方向都需要一个能够模拟“给定患者生物学数据，如果施用某种药物，肿瘤是否会消退”的世界模型。

本章小结

癌症免疫治疗的关键在于理解肿瘤微环境中免疫系统与肿瘤的复杂交互，多模态数据为此提供了前所未有的观察窗口。

Noetik 的多模态数据平台

四种数据模态

Noetik 从人类肺部肿瘤标本（约 1mm 直径的组织核心）中获取四种空间对齐的数据模态：

1. H&E 染色图像。 最常见的病理学染色，类似 RGB 图像，能够显示组织的大体形态学特征。优点是廉价、易获取、数据量大。

2. 16-plex 蛋白质免疫荧光面板。 通过 16 种荧光抗体检测不同蛋白质，类似“16 通道的 RGB 图像”。能够区分 T 细胞（绿色）、B 细胞（蓝色）、肿瘤细胞（红色）等。

3. 空间转录组学。 在组织空间位置上测量基因表达谱——对于约 1000 个基因，我们知道每个空间位置的表达水平。

4. 单细胞 RNA 测序（scRNA-seq）。 提供单个细胞级别的基因表达信息，可以精确识别细胞类型和状态。

空间对齐的关键价值

这四种模态是在同一组织样本上空间对齐采集的。这类似于 RGB 和深度图像的配对——不同模态观察的是同一现实的不同侧面，使得跨模态学习成为可能。

本章小结

Noetik 构建了独特的多模态癌症数据平台，四种空间对齐的数据模态为训练世界模型提供了丰富的信息基础。

多模态 Transformer 架构

模态特定的 Tokenization

每种数据模态需要不同的 tokenization 策略：

H&E 图像：使用预训练的病理学视觉编码器（如 UNI、Virchow 等基础模型）
蛋白质荧光：类似图像但通道数不同，需要适配的编码器
空间转录组：基因表达向量的空间排列
单细胞数据：每个细胞是一个高维向量

跨模态注意力

核心架构思想是让不同模态的 token 通过 Transformer 的自注意力机制相互交流。由于它们是空间对齐的，相同位置上不同模态的 token 自然形成互补的信息源。

预训练任务设计

一个关键的设计决策是预训练任务的选择：

跨模态预测：给定一种模态的输入，预测另一种模态的表示
掩码建模：随机遮挡部分 token，利用其他模态的信息来重建
对比学习：学习跨模态的对齐表示

H&E 的陷阱

H&E 染色图像虽然数据量最大、最易获取，但它只提供形态学信息。如果模型过度依赖 H&E，可能会忽视蛋白质和基因表达层面的关键信号。多模态学习的目标正是超越任何单一模态的局限。

本章小结

多模态 Transformer 通过模态特定的编码器和跨模态注意力，将不同类型的生物学数据统一到一个共享的表示空间中。

药物发现应用

虚拟实验模拟

最终目标是构建一个能够进行“虚拟实验”的世界模型：

\[ \text{输入：患者多模态数据} + \text{药物候选} \to \text{输出：治疗效果预测} \]

这使得研究者可以在in silico（计算模拟中）快速筛选大量药物-患者组合，大幅降低实际实验成本。

实验优先级的确定

即使有完美的模拟器，也不能无限制地运行模拟。确定实验优先级需要：

领域专家的假设驱动（“我们认为肿瘤通过 X 机制逃逸免疫，让我们测试阻断 X 的药物”）
未来可能由 AI 科学家 Agent 驱动的自动实验设计

本章小结

多模态世界模型为癌症药物发现提供了从“逐个实验”到“大规模模拟筛选”的范式转变。

总结与延伸

本讲展示了 Transformer 在医疗健康领域的深远应用潜力。核心信息：

多模态互补是关键：癌症生物学中不同数据模态提供互补信息，组合后的预测能力远超任何单一模态。
世界模型框架：将药物发现建模为世界模拟问题，使得 AI 可以快速筛选治疗方案。
独特的研究基底：癌症生物学数据的多样性为基础 ML 研究提供了丰富的实验场景。
跨学科是趋势：神经科学、免疫学、机器学习的交叉是推动创新的核心动力。

拓展阅读

Chen et al., “Towards a General-Purpose Foundation Model for Computational Pathology (UNI)”, Nature Medicine, 2024
Vorontsov et al., “Virchow: A Million-Slide Digital Pathology Foundation Model”, 2024
Ha & Schmidhuber, “World Models”, 2018