[CS25 V5] Transformers for Video Generation (Movie Gen) — Andrew Brown, Meta

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford CS25: Transformers United V5
日期	Spring 2025

引言：视频生成的飞速进步

Andrew Brown 是 Meta GenAI 团队的研究科学家，专注于视频生成。他在牛津大学 VGG 组（Andrew Zisserman 指导）完成 PhD 后加入 Meta，先后参与了 Emu Video 和 Movie Gen 等前沿视频生成项目。

本讲的核心信息可以用一句话概括：对简单 Transformer 进行数据、计算和模型参数的扩展，在视频生成领域同样有效。

视频生成的惊人进步

2022 年 9 月的最先进模型只能生成模糊、不自然的短视频。仅仅两年后（2024 年 10 月），Movie Gen 就能生成几乎无法与真实视频区分的高质量内容——包括复杂运动、奇幻场景，甚至镜面反射等物理效果。这种进步速度在机器学习各子领域中都是空前的。

个人动机

Andrew 分享了他进入视频生成领域的契机：2019 年在牛津听了 MIT Antonio Torralba 教授关于 GAN Dissection 的讲座。当时的图像生成模型只能产生模糊的厨房场景，但研究者发现可以通过激活/去激活特定神经元来让窗户出现或消失——更令人震惊的是，模型自动学会了“窗户会透光并在大理石台面上产生反射”这一物理常识。

本章小结

视频生成在两年内经历了从“模糊可辨”到“以假乱真”的飞跃，Transformer + 扩展是实现这一进步的核心策略。

视频生成的历史背景

两个里程碑事件

视频生成领域在 2022--2024 年间经历了两个关键转折：

里程碑一：扩散模型进入视频生成（2022）。 整个社区开始采用扩散建模方法进行视频生成，取代了之前的 GAN 和 VAE 方法。

里程碑二：Sora 的发布（2024 年 2 月）。 OpenAI 的 Sora 展示了令人震惊的视频生成质量，改变了整个领域的研究格局和公众预期。

视频生成方法的汇聚

在 Sora 之前，不同团队使用不同架构和训练策略，方法差异很大。Sora 之后，几乎所有团队都汇聚到了相似的方法——基于 Transformer 的扩散/Flow Matching 模型。Movie Gen 也是在这一趋势下的产物。

本章小结

扩散模型的引入和 Sora 的发布是视频生成领域的两个分水岭事件。

时间自编码器（Temporal Autoencoder）

为什么需要压缩？

视频数据量极大：一段 16 秒、768\(\times\)768 分辨率的视频包含约 \(768 \times 768 \times 30 \times 16 \approx 2.83 \times 10^8\) 个像素。直接在像素空间训练扩散模型计算上不可行，必须先进行压缩。

TAE 的设计

Movie Gen 使用时间自编码器（Temporal Autoencoder, TAE）将视频压缩到紧凑的潜空间：

空间压缩：\(8 \times 8\)（每个 \(8 \times 8\) 像素块变成一个 token）
时间压缩：\(8 \times\)（每 8 帧变成 1 帧的 token）
总压缩比约 \(512 \times\)

TAE 的训练使用了对抗损失（GAN Loss），这是一个重要的技术细节：

对抗损失提升压缩率

传统 VAE 仅使用 L1 重建损失训练时，能实现的压缩比非常有限。VQ-GAN（2021）发现，引入 GAN 判别器的对抗损失后，解码器获得了更大的“自由度”——不需要精确重建每个像素，只需要生成看起来“真实”的结果。这使得压缩比提升了约 2 倍。

本章小结

时间自编码器通过 \(512\times\) 的压缩比使视频扩散模型的训练成为可能，对抗损失是实现高压缩比的关键技术。

Flow Matching 训练框架

什么是 Flow Matching？

Movie Gen 使用 Flow Matching 而非传统的 DDPM 作为训练框架。Flow Matching 的核心思想：

定义从噪声分布到数据分布的一条直线路径
在路径上的任意点，训练模型预测速度向量（将样本从噪声推向数据的方向）

训练目标简单明了：

\[ \mathcal{L} = \mathbb{E}_{t, x_0, \epsilon}\left[\| u_\theta(x_t, t, p) - v_t \|^2\right] \]

其中 \(v_t\) 是从含噪样本 \(x_t\) 指向数据样本 \(x_0\) 的速度向量，\(p\) 是文本条件，\(u_\theta\) 是模型预测。

推理过程

推理时，从高斯噪声出发，使用 ODE（常微分方程）求解器沿时间步序列迭代去噪：

\[ x_{t+\Delta t} = x_t + u_\theta(x_t, t, p) \cdot \Delta t \]

Movie Gen 使用了简单的 Euler 求解器。

本章小结

Flow Matching 提供了比 DDPM 更简洁的训练框架，其速度预测目标和 ODE 求解器使推理过程直观高效。

模型架构：Llama 3 用于视频生成

为什么选择 Llama 架构？

Movie Gen 使用了 Llama 3 的 Transformer 架构（随机初始化，不使用预训练权重）作为扩散模型的骨干网络。

选择 Llama 的原因不是因为它在视频任务上有特殊优势，而是因为：

Meta 已经知道如何大规模训练这种架构
超参数调优、分布式训练基础设施都已就绪
架构的可扩展性已经在语言模型中得到验证

架构选择的工程考量

大规模模型训练是极其困难的工程问题。每次改变架构都需要重新探索超参数、训练稳定性等问题。选择已知如何扩展的架构（即使它最初是为其他任务设计的）往往是最务实的选择。

三个必要的修改

Llama 3 是为自回归文本生成设计的，将其用于视频 Flow Matching 需要三个修改：

1. 交叉注意力层（文本条件注入）。 在自注意力层和前馈网络之间插入交叉注意力层，将文本条件注入视频生成过程。

文本表示使用三个互补的预训练编码器：

UL2：侧重语义理解
MetaCLIP：侧重视觉-语言对齐
ByT5：字符级编码器，擅长处理细粒度文本（如拼写、特殊符号）

2. adaLN（时间步条件注入）。 通过自适应层归一化将时间步信息注入每个 Transformer 块。

3. 因果注意力 \(\to\) 双向注意力。 Llama 3 使用因果掩码（只看之前的 token），但对于去噪任务，所有 token 之间都应相互可见，因此改为双向全注意力。

模型规模

Movie Gen 的最终模型达到 30B 参数——这是一个巨大的视频生成模型。

本章小结

Llama 3 架构仅需三个最小修改即可用于视频 Flow Matching，这证明了 Transformer 架构的通用性。

训练策略

渐进式训练

Movie Gen 采用渐进式训练策略，逐步提升分辨率和时长：

先在低分辨率、短视频上训练
逐步提升到更高分辨率和更长时长
每个阶段继承前一阶段的权重

图像-视频联合训练

一个关键的训练技巧是将图像视为单帧视频，进行图像和视频的联合训练：

高质量图像数据量远大于视频数据
图像训练帮助模型学习高质量的视觉表示
视频训练在此基础上学习时间一致性和运动

数据的重要性

数据质量是核心

Movie Gen 的成功在很大程度上归功于高质量的训练数据。数据管道包括：

严格的质量过滤（去除低质量、重复、有害内容）
精心的文本描述（使用 LLM 为视频生成详细 caption）
平衡的数据分布（避免过度偏向某些类型的内容）

本章小结

渐进式训练和图像-视频联合训练是训练大规模视频生成模型的关键策略。

视频编辑能力

指令驱动编辑

Movie Gen 不仅能从文本生成视频，还能进行视频编辑：

输入原始视频 + 编辑指令（如“将跑步者变成充气恐龙”）
模型生成保持原视频结构但遵循编辑指令的新视频

本章小结

视频编辑能力展示了模型对视频内容的深层理解——不仅能生成，还能有意义地修改。

总结与延伸

本讲详细拆解了 Movie Gen 从架构到训练的每个技术细节。核心结论：

Scaling 是王道：数据、计算、参数的扩展对简单 Transformer 在视频生成领域同样有效。
架构简单性：仅对 Llama 3 做了三个修改就能进行视频生成，证明了 Transformer 的通用性。
压缩是关键：TAE 的 \(512\times\) 压缩使视频扩散训练成为可能。
训练策略重要：渐进式训练、图像-视频联合训练是大规模模型训练的实用技巧。
数据决定上限：高质量数据管道是最终生成质量的关键决定因素。

拓展阅读

Meta, “Movie Gen: A Cast of Media Foundation Models”, 2024
Polyak et al., “Movie Gen Video”, 2024
Singer et al., “Make-A-Video: Text-to-Video Generation without Text-Video Data”, 2022
Esser et al., “VQ-GAN: Taming Transformers for High-Resolution Image Synthesis”, 2021
Lipman et al., “Flow Matching for Generative Modeling”, 2023