KAIST CS492D Guest Lecture 2: 3D生成方法与视频模型

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于公开课程资料整理
来源	Philipp Henzler (Guest Lecture)
日期	2025年秋季

引言：从3D重建到生成式3D

Philipp Henzler 自2018年攻读博士期间便开始从事3D重建与生成方向的研究，主要工作包括自监督3D重建（self-supervised 3D reconstruction）和外观建模（appearance modeling）。2022年加入 Google 后，他致力于生成式3D重建和3D重光照（relighting），其团队成功将研究成果应用于 Google Shopping 产品中——先从鞋类3D重建开始，后借助视频模型扩展到任意物体品类。

本次演讲的核心主题是：3D生成方法如何与通用视频模型相结合，以及在视频模型日益强大的今天，显式3D建模为何依然不可或缺。

演讲核心问题

在2D视频模型已经能够生成高度逼真视频的今天，我们为什么还需要显式建模3D？3D方法与2D生成模型各自的优势和劣势是什么？如何将二者结合以获得最佳效果？

3D生成方法的演进

早期方法：3D GAN（2016）

最早的生成式3D建模方法使用生成对抗网络（GAN）。在2016年的工作中，研究者构建了一个纯生成模型：从噪声隐变量出发，训练模型生成3D体素（voxel）表示，并使用3D判别器进行对抗训练。

该方法的两个主要限制：

无法精确控制输入：生成过程完全随机，无法指定生成特定物体
需要3D真值数据：训练依赖于3D ground truth，而高质量3D数据极为稀缺

PlatonicGAN：摆脱3D数据依赖

PlatonicGAN 的核心创新在于引入了可微渲染器（differentiable renderer）和2D判别器，从而消除了对3D真值数据的依赖。这使得模型可以直接在互联网上的2D图像数据上进行训练。此外，PlatonicGAN 还引入了图像编码器，实现了从单张图像进行3D重建的能力。

可微渲染的意义

可微渲染（differentiable rendering）是连接3D表示与2D监督信号的桥梁。通过使渲染过程可微分，梯度可以从2D图像空间的损失函数反向传播到3D表示的参数上，从而允许使用大量的2D图像数据来训练3D生成模型，而无需昂贵的3D标注。

PixelNeRF：多视角融合

在基于图像的重建思路基础上，PixelNeRF 专注于多视角输入。其核心创新是将来自多张输入图像的编码特征聚合（aggregate），融合为一个一致的3D表示——具体形式为 NeRF（Neural Radiance Field）。

共同特征与局限

上述所有方法都有一个共同特点：它们直接预测一个显式的、3D一致的表示。

显式3D表示的优势与劣势

优势：一旦获得3D模型，可以从任意视角快速、低成本地渲染，非常适合手机和平板等移动端的实时应用。

劣势：整体生成质量较低。原因有二：（1）高质量3D数据极度稀缺；（2）这些方法不应使用过强的归纳偏置（如渲染），但避免归纳偏置又限制了模型能力。

本章小结

3D生成方法从依赖3D真值数据的3D GAN，发展到利用可微渲染和2D判别器的 PlatonicGAN，再到支持多视角输入的 PixelNeRF。这些方法的共同优势在于生成显式3D表示、渲染成本低，但受限于3D数据的稀缺性，整体质量不及2D生成模型。

视频模型的3D理解能力

2D生成模型的优势

与3D生成模型形成鲜明对比的是，2D图像和视频生成模型能够很好地随数据和计算资源扩展（scale）：互联网上有数十亿张2D图像和视频可供训练，且这些模型直接生成2D像素，归纳偏置有限。随着算力不断增长，这些模型产出的视频质量越来越高——例如 V3 模型已能生成具有多样相机运动、场景运动以及高度逼真物理效果的视频。

视频模型是否理解3D？

一个自然的问题是：这些视频模型生成的结果是否在物理上是正确的？

Henzler 团队设计了一个实验来探究这个问题：

给定两张重叠区域很少的场景图像 A 和 B
使用现成的位姿估计器（如 DUSt3R）预测相机位姿——由于图像重叠少，基于视觉对应关系的估计器效果很差
使用多种视频生成模型在两张图像之间插值生成中间帧
将生成的中间帧连同原始两张图像一起输入位姿估计器

关键发现：视频模型隐式理解3D

实验结果表明，视频模型生成的中间帧显著提升了位姿估计器的精度。这意味着视频模型确实能够隐式地建模物理世界——它们生成的帧之间存在合理的3D几何关系，即使模型从未被显式训练去理解3D结构。

交互式视频模型

更进一步，类似 Genie 2 的交互式视频模型已经允许用户实时导航3D世界。用户可以通过键盘输入（前进、左转、右转）来控制模型生成新帧，自由地在虚拟场景中探索不同视角。更关键的是，当用户转身回看时，场景保持了一致性——教室看起来与之前完全相同。

为何仍需显式3D建模？

既然纯2D视频模型已经如此强大，为什么还需要显式建模3D？

视频模型的根本瓶颈：推理成本

虽然视频模型能随数据和计算扩展，但其推理成本也会相应上升。这使得这些模型目前无法在手机和平板等移动设备上运行。而显式3D表示（如 NeRF、3D Gaussian Splatting）一旦构建完成，渲染成本极低，完全可以在移动端实时运行。

两块拼图的组合

Henzler 指出，我们其实已经拥有了两块互补的拼图：

生成式图像/视频模型：产出高度逼真的2D图像
NeRF/3DGS 重建方法：将多张图像蒸馏为高效的3D表示，支持快速渲染

将二者组合——用生成模型产出多视角图像，再用3D重建方法将其蒸馏为高效3D表示——正是后续工作 CAT3D 和 B3D 的核心思路。

本章小结

视频模型已经展现出隐式的3D理解能力，但其推理成本限制了在移动端的部署。显式3D表示提供了低成本渲染的优势，因此「2D生成 + 3D蒸馏」成为兼顾质量与效率的最优策略。

CAT3D：多视角扩散模型 + NeRF 蒸馏

方法概述

CAT3D 是一种可以接受文本提示、单张图像或多张图像作为输入，生成完整3D场景的方法。其核心思想是将多视角扩散模型与 NeRF 重建流程相结合。

模型架构

CAT3D 的输入包含两类视角：

已观察视角（Observed Views）：包含输入图像及其对应的相机参数。图像通过预训练的 VAE 编码为图像隐变量（image latent），相机信息编码为逐像素的射线坐标图（per-pixel ray coordinate map），包含每个像素的射线原点和方向。
新视角（Novel Views）：没有真实图像，取而代之的是噪声隐变量，同时附带目标视角的相机位姿信息。

为帮助模型区分两类视角，还会输入一个掩码（mask），标识哪些视角是已观察的、哪些是待生成的。

射线坐标图（Ray Coordinate Map）

射线坐标图是一种将相机位姿信息编码为空间表示的方式。对于图像中的每个像素，计算其对应的射线原点（ray origin）和射线方向（ray direction），将这些信息存储为与图像尺寸相同的坐标图。这种表示方式允许模型直接在像素级别理解3D几何关系。

模型在所有帧之间使用注意力机制（attention），因此能够生成多视角一致的输出。训练数据为大量带位姿标注的多视角图像，监督模型在给定已知视角的条件下生成一致的新视角。

两阶段流程

CAT3D 采用两阶段流程：

多视角生成：给定少量输入视角，使用多视角扩散模型生成场景的密集视角集
NeRF 重建：将生成的所有视角输入标准 NeRF 管线进行3D重建

生成的多视角并非完美3D一致

多视角扩散模型生成的图像并非完全3D一致——不同视角之间可能存在微小的不一致。但关键洞察是：这些图像足够一致，使得 NeRF 重建管线能够将它们整合为一个一致的3D输出。NeRF 本质上充当了一个「平均化」的角色，将多视角中的不一致性消解掉。

性能

端到端地，CAT3D 能够在约 1分钟 内从任意数量的输入（甚至仅一张图像）生成完整的3D场景。

本章小结

CAT3D 验证了「2D生成 + 3D蒸馏」范式的可行性：多视角扩散模型负责高质量图像生成，NeRF 负责将这些图像蒸馏为一致的3D表示。但 NeRF 优化步骤仍然是推理速度的瓶颈。

B3D：前馈式3D生成

动机：消除优化瓶颈

CAT3D 中的 NeRF 优化步骤虽然有效，但仍需数十秒的迭代优化。一个自然的问题是：能否用前馈模型替代优化步骤？

B3D（Both3D）给出了肯定的回答——它能在单个 GPU 上不到7秒内生成完整3D场景。

核心思想：Splatter Image

B3D 的关键思想基于 Splatter Image：为每个像素预测一个 3D Gaussian Splat 的参数。Splatter Image 本身是一种纯重建方法，无法处理未观察区域。B3D 在此基础上引入了生成模型，使其能够「幻想」（hallucinate）未见区域的内容。

B3D 的两阶段生成流程

第一阶段——扩散生成：一个多视角隐扩散模型（multi-view latent diffusion model）同时生成多视角的 RGB 图像和 XYZ 点图（point map）。\ 第二阶段——Gaussian 回归：一个 Gaussian Head 网络接收生成的 RGB 图像和点图，回归每个像素对应 3D Gaussian 的剩余属性（opacity 和 scale），输出多视角 Splatter Image。

为什么采用两阶段设计？

这一设计选择有深刻的技术原因：

RGB 颜色和 XYZ 位置可以从多视角数据集中可靠地获得监督信号——位置信息通过在现有多视角数据集上运行 Structure-from-Motion（SfM）管线获得
但像素级 Gaussian 的 opacity 和 scale 很难获得可靠的真值，因此不适合直接用扩散模型生成
已有研究表明，给定颜色和位置信息后，回归 opacity 和 scale 比生成它们容易得多

多视角 Gaussian Head

Gaussian Head 网络的关键设计要素：

接收所有视角的预测点图和 RGB 图像
将每个视角转换为对应的 Splatter Image（即每个像素一个 3D Gaussian）
使用跨视角注意力（cross-view attention）让网络能够联合推理所有 Splatter Image，确保3D一致性
最终的多视角 Splatter Image 组合在一起，代表完整的3D场景

训练数据

B3D 的训练需要大规模多视角数据集，团队使用 MASt3R（一种3D Structure-from-Motion 管线）处理了以下数据集的所有场景：

CO3D
RealEstate10K (R10K)
MVImgNet
DL3DV

这确保了所有训练数据都具有密集的 XYZ 标注。结合合成物体数据集，构建了大规模训练集。

训练数据的构建策略

虽然互联网上的3D数据稀缺，但多视角图像数据较为丰富。通过在多视角数据集上运行 SfM 管线，可以自动获得每张图像的密集深度/点图标注，从而为扩散模型的训练提供足够的监督信号。这种「利用2D数据间接获得3D监督」的策略是当前3D生成研究的重要范式。

本章小结

B3D 通过引入前馈 Gaussian Head 替代 NeRF 优化步骤，将3D生成速度从约1分钟提升到7秒以内。其两阶段设计（扩散生成 RGB+XYZ，回归 opacity+scale）巧妙地利用了不同属性在可监督性上的差异。

几何自编码器：关键技术挑战

问题：图像 VAE 不适用于几何数据

B3D 使用隐扩散模型同时生成 RGB 图像和 XYZ 点图，这要求对两种模态都进行自编码。然而，Henzler 发现直接使用预训练的图像 VAE 来编解码点图会产生极差的结果，且场景越大效果越差。

原因分析：

损失函数不匹配：图像压缩常用的感知损失（perceptual loss）对几何数据毫无意义
数据范围不匹配：图像像素值始终在 \([0, 1]\) 范围内，但几何坐标的取值范围完全不同，且随场景规模变化

图像 VAE 用于几何编码的陷阱

将为图像设计的 VAE（使用感知损失、GAN 损失等训练）直接应用于几何数据（XYZ 点图）是行不通的。几何数据与图像数据在统计分布、值域范围和语义含义上都有本质区别。必须设计专门的几何自编码器。

解码器架构：Transformer vs. 卷积

另一个有趣的发现是关于解码器架构的选择：

从定量指标看，卷积解码器和 Transformer 解码器的几何重建质量相当
但定性观察揭示了关键差异：卷积解码器会产生感知上令人不适的伪影，例如无法保持直线的平直性
因此 B3D 选择了 Transformer 解码器来处理 XYZ 数据

定量指标 vs. 定性评估的差异

这是一个典型案例：定量指标（如 MSE）可能无法完全反映实际的视觉质量。两种解码器在数值指标上表现相似，但卷积解码器的输出存在结构性伪影（如弯曲的直线），这在实际应用中是不可接受的。这提醒我们在评估几何重建质量时，不能仅依赖传统指标。

本章小结

几何自编码器是3D隐扩散模型的关键组件，但其设计面临与图像自编码器截然不同的挑战。数据分布差异、损失函数选择和解码器架构都需要针对几何数据特点重新考量。

VLM 引导的感知对齐图像压缩

背景：传统图像压缩的感知失配

Henzler 在这一部分介绍了一项关于自编码器训练的相关研究——虽不直接关于3D生成，但对理解自编码器设计有重要启发。

传统自编码器训练使用 PSNR 或 SSIM 等损失函数，但这些指标与人类感知的对齐程度很差。例如：

人类对面部和文字的失真非常敏感
但对草地、毛皮等自然纹理的失真不太在意

方法：VLM 作为感知评判者

该方法使用视觉语言模型（VLM）作为感知评判者，通过 Diffusion DPO（Direct Preference Optimization）来改善扩散自编码器的训练。

流程如下：

给定原始图像，使用扩散自编码器以两个不同的噪声种子解码两次，得到解码 A 和解码 B
将原始图像、解码 A 和解码 B 同时输入 VLM，提示其评判哪个解码更接近原始图像
VLM 输出 \(-5\) 到 \(+5\) 之间的数值评分（负值表示 A 更好，正值表示 B 更好）
基于评判结果，使用 Diffusion DPO 更新自编码器

三重鲁棒性策略

由于 VLM 容易产生幻觉，研究者采用了三种策略提高评判的可靠性：

1. 顺序翻转：不仅以 (A, B) 顺序输入，还以 (B, A) 顺序输入 VLM，消除位置偏差。

2. 多种子聚合：对 A 和 B 分别使用多个噪声种子，将多次评判结果求和，降低 VLM 输出的噪声。

3. LPIPS 交叉验证：额外使用 LPIPS 指标判断哪个解码更准确，仅当 VLM 和 LPIPS 的判断一致时才将该样本用于 DPO 训练，否则丢弃。

实验结果

PSNR 指标：该方法在 PSNR 上表现最差（最低分）——但这不是优化目标
感知指标（FID、FID-DINOv2、LPIPS）：在多个数据集上表现优异
用户研究（ELO 评分）：在 MSCOCO 和 CLIC 2020 数据集上获得高 ELO 分数

感知质量 vs. 信号保真度的权衡

该工作精确地揭示了一个重要的设计选择：追求人类感知质量（perceptual quality）往往需要牺牲像素级保真度（pixel-level fidelity）。一面旗帜上的星星可能位于略微不同的位置，但整体看起来「对」；文字可能不是逐像素精确匹配，但人类能正确识读。这种权衡在图像压缩和生成任务中非常普遍。

本章小结

利用 VLM 作为感知评判者进行 DPO 训练，可以使自编码器的输出更加符合人类感知偏好，尤其在面部和文字等人类敏感区域显著改善。这一思路有望推广到3D生成领域。

ROAR：3D 重光照

动机：细粒度控制

除了生成3D内容本身，对输出进行细粒度控制也至关重要——光照是其中最重要的控制维度之一。ROAR 方法解决的问题是：给定一组带位姿的图像和一个目标光照条件，生成该光照下的3D模型。

方法设计

ROAR 训练了一个多视角重光照模型，其架构类似于 CAT3D 和 B3D 中的多视角模型，但增加了光照条件作为输入。

具体而言：

输入：一组图像、对应位姿 + 目标光照条件
输出：每个视角在目标光照下的重光照图像
目标：对于 \(N\) 个视角和 \(M\) 个光照条件，生成 \(N \times M\) 张重光照图像
这些图像随后用于训练一个光照条件 NeRF

核心思路类似虚拟光舞台（light stage）——通过模拟不同光照条件下的物体外观，训练 NeRF 对任意目标光照进行泛化。

光照表示：环境贴图 + 镜面反射嵌入

光照的编码是一个非平凡的问题。ROAR 采用了双重光照表示：

ROAR 的双重光照编码

1. 全局光照嵌入：将环境贴图（environment map）通过 Transformer 编码器转换为光照嵌入向量。

2. 镜面反射嵌入：由于全局编码器不够强大，无法完全捕获镜面高光细节，ROAR 额外引入了一个镜面反射嵌入（specular embedding），从镜面反射方向对环境贴图进行局部采样。为了处理不同粗糙度，采用预模糊的环境贴图，从而只需采样单个位置即可获得镜面反射信息。

实验效果

实验表明，ROAR 能够忠实地恢复不同目标光照下的镜面高光效果，而竞争方法要么遗漏镜面高光，要么过度补偿。

本章小结

ROAR 将「2D生成 + 3D蒸馏」范式扩展到了光照控制维度，通过训练多视角重光照模型生成丰富的光照-视角数据，再蒸馏为光照条件 NeRF，实现了3D物体的任意重光照。

Captive：360度全景生成

问题与挑战

360度全景图像的生成面临一个严峻的数据问题：真实的360度全景数据非常有限。如何在有限数据下训练高质量的全景生成模型？

核心思想：立方体贴图表示

Captive 的关键洞察是将360度全景表示为立方体贴图（cube map），即6个面的透视图像。每个单独的面都是标准透视图像，属于互联网图像的正常分布范围。

Captive 的架构设计

编码：将6张立方体面沿通道维度堆叠，输入2D编码器。

生成：几乎完全复用预训练 Stable Diffusion 模型的架构。由于预训练模型已具备生成任意透视图像的能力，冻结现有层，仅训练新增的注意力层。

新增层的作用：学习6张图像之间的空间关系，即立方体各面如何在3D空间中关联。

数据效率：由于核心生成能力来自预训练的大规模2D模型，仅需数万张全景图像即可训练出高质量的全景生成模型。

分布外泛化

尽管训练数据仅限于自然场景的全景图，Captive 能够生成超出训练分布的内容。这得益于冻结了2D基础模型——它保留了生成任意类型透视图像的能力，而新增的注意力层只需学习视角间的空间关系。

冻结基础模型 + 轻量适配层的范式

Captive 的成功体现了一个重要范式：冻结强大的预训练基础模型，只训练少量的适配层来学习新的约束（如多视角一致性、360度空间关系）。这样既能利用基础模型在大规模数据上学到的强大生成先验，又能在小数据集上快速适配新任务，且保持了基础模型的分布外泛化能力。

本章小结

Captive 通过立方体贴图表示和冻结基础模型的策略，在有限全景数据下实现了高质量的360度全景生成，并展现了良好的分布外泛化能力。

苦涩的教训与3D的未来

Bitter Lesson 视角下的3D生成

Henzler 引用了 Richard Sutton 的「苦涩的教训」（The Bitter Lesson）来审视3D生成领域的发展趋势：

假设数据和计算资源充裕，减少归纳偏置。

在这一框架下：

真正的生成方法（2D图像/视频模型）能够扩展（scale）：数据充裕、归纳偏置有限
3D模型无法同样扩展：高质量3D数据极度稀缺
但3D模型在成本和时间效率上具有显著优势

3D在内容生成中的持续重要性

虽然2D方法已能生成高度逼真的视频并展现了交互能力（如相机控制），但：

1. 控制精度不足：我们尚未获得对2D视频模型的完全、精确的控制能力。

2. 部署困难：这些大型模型目前无法在消费级设备上实时运行。

3. 3D蒸馏不可或缺：为了在移动端部署，仍然需要将生成结果蒸馏为高效的3D表示。

这些限制意味着3D建模在可预见的未来仍是内容生成流程中的关键一环。

World Labs 的启示

World Labs 正在开发能够在单个 GPU 上实现实时下一帧预测的交互式3D模型。虽然结果尚不完美，但这是一个非常有前景的方向——预示着2D生成与3D表示之间的边界可能进一步模糊。

本章小结

3D生成的未来可能在于「2D负责质量、3D负责效率」的分工协作模式。3D方法的不可替代性在于其极低的渲染成本和在移动端的可部署性。

总结与延伸

核心要点回顾

本次演讲系统地梳理了生成式3D方法的演进脉络和当前格局：

3D生成方法的演进：从需要3D真值的3D GAN，到利用可微渲染摆脱3D数据依赖的 PlatonicGAN，再到多视角融合的 PixelNeRF
视频模型的3D理解：实验证实视频模型能隐式建模3D几何，但推理成本限制了部署
CAT3D：「多视角扩散 + NeRF 蒸馏」范式，约1分钟生成3D场景
B3D：前馈 Gaussian Head 替代 NeRF 优化，7秒内生成3D场景
几何 VAE：图像 VAE 不适用于几何数据，需要专门的架构和损失函数设计
VLM 感知对齐：用 VLM 作为评判者进行 DPO 训练，改善自编码器的感知质量
ROAR：将重光照作为额外控制维度引入3D生成框架
Captive：立方体贴图 + 冻结基础模型实现数据高效的全景生成

关键设计原则

3D生成方法的设计原则

1. 2D生成 + 3D蒸馏：利用2D模型的强大生成能力，通过3D重建获得高效可渲染的3D表示。

2. 分阶段设计：将容易获得监督的属性（如 RGB、XYZ）用扩散模型生成，将难以获得真值的属性（如 opacity、scale）用前馈网络回归。

3. 冻结 + 适配：在基础模型上冻结已学习的强大先验，仅训练少量适配层来学习新约束。

4. 跨视角注意力：通过全局注意力机制确保多视角生成的3D一致性。

拓展阅读

CAT3D: Create Anything in 3D with Multi-View Diffusion Models (Gao et al., Google, 2024)
B3D: 快速前馈3D场景生成方法 (Google Research)
Splatter Image: Ultra-Fast Single-View 3D Reconstruction (Szymanowicz et al., 2024)
MASt3R: 3D Structure-from-Motion 管线
ROAR: 3D重光照方法 (Google Research)
The Bitter Lesson --- Richard Sutton, 2019
Genie 2: 交互式视频生成模型 (Google DeepMind)
World Labs: 实时3D世界模型