[CS25 V5] Overview of Transformers — Instructors

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford CS25: Transformers United V5
日期	Spring 2025

引言：CS25 V5 课程背景

CS25 “Transformers United” 是斯坦福大学开设的研讨课程，每周邀请 AI 领域的顶尖研究者分享前沿进展。第五期（V5，Spring 2025）由 Stephen Feng、Curran、Chelsea、Jenny 等讲师联合主持，Div Garg 为课程创始人之一（本学期因创办 AGI Inc.\ 而处于学业休假状态）。

本次开场讲座作为课程第一讲，全面回顾 Transformer 架构的基础知识，并在此基础上深入讨论预训练（Pre-training）数据策略、后训练（Post-training）技术、应用前沿以及当前模型面临的核心挑战。

课程定位

CS25 旨在将 Transformer 与大语言模型的最新研究直接呈现给学生，涵盖 NLP、计算机视觉、生物学、机器人等多领域应用。每周邀请来自工业界或学术界的一线研究者进行专题报告。

Transformer 架构基础

词嵌入与上下文表示

语言模型的第一步是将离散的词语转换为稠密向量。经典方法如 Word2Vec、FastText 等能够捕捉语义相似性（如“cat”和“dog”在嵌入空间中距离较近），但它们生成的是静态嵌入——同一个词在不同语境中具有相同向量表示（例如“bank”在“银行”和“河岸”两个含义中无法区分）。

现代方法采用上下文嵌入（Contextual Embeddings），通过自注意力机制根据上下文动态调整每个 token 的表示。

自注意力机制

自注意力的核心思想可以用图书馆类比来理解：

Query：你想找的书的主题
Key：每本书的摘要标签
Value：书中的实际内容

通过 Query 和 Key 的匹配，对所有 Value 进行加权求和，实现对相关信息的软检索。

注意力机制核心公式

\[ \text{Attention}(Q, K, V) = \text{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right) V \]

其中 \(Q\)（Query）、\(K\)（Key）、\(V\)（Value）分别由输入通过可学习的权重矩阵投影得到；\(d_k\) 为键向量维度，用于缩放以防止 softmax 梯度消失。

多头注意力与 Transformer 架构

多头注意力（Multi-Head Attention）在不同子空间中并行运行多组注意力，捕捉不同类型的语义关系。完整的 Transformer 编码器块包含：

多头自注意力层
残差连接 + 层归一化
前馈网络（FFN）
残差连接 + 层归一化

通过堆叠多层这样的结构，模型能够学习层次化的表示。

位置编码

由于自注意力本身不包含位置信息，Transformer 需要额外的位置编码来注入 token 的顺序信息。原始论文使用正弦/余弦函数，现代模型则广泛采用旋转位置编码（RoPE）等方案。

本章小结

Transformer 通过自注意力实现全局依赖建模和高效并行计算，以多头注意力和位置编码为核心组件，奠定了当代深度学习的架构基础。

预训练与数据策略

数据质量的重要性

讲座通过两个研究项目展示了数据策略对模型性能的决定性影响。

项目一：BabyLM 与儿童语言学习。 受人类儿童高效语言学习的启发，研究者探索了在小规模、高质量数据上训练语言模型的可能性。实验发现：

多样化数据源（如 BabyLM 语料库）比纯粹的儿童导向语音提供更好的学习信号
合成生成的对话数据（Tiny Dialogues，由 GPT-4 生成）明显优于自然对话数据
全局发展顺序的课程学习对性能影响微乎其微

儿童 vs.\ 模型的学习效率

人类儿童仅从约 1 亿词的输入中就能掌握语言，而当前语言模型需要数万亿 token。这说明人类的学习机制（如多模态信息整合、大脑的学习算法）在本质上可能与语言建模存在根本不同。

项目二：两阶段预训练（Two-Phase Pre-training）。 与 Nvidia 合作的研究提出了系统化的两阶段预训练方法：

第一阶段：在大规模、多样化的通用数据上训练，建立广泛的知识基础
第二阶段：切换到高质量、领域特定数据（如数学数据），提升专项能力

实验表明，两阶段方法在所有配置下均优于单阶段持续训练。第二阶段的最优持续时间约占总训练量的 40%，超过此比例后会因过拟合而出现收益递减。

数据选择的平衡

在两个阶段中都需要平衡数据的质量与多样性。过度上采样任何单一数据集都会导致过拟合，即使是高质量的专业数据也是如此。

本章小结

数据是预训练成功的关键。精心设计的数据混合策略和分阶段训练方案能够显著提升模型性能，而先在小规模实验中验证再放大是有效的工程策略。

后训练技术

指令微调与 RLHF

后训练（Post-training）是将预训练模型转变为可用产品的关键步骤，主要包括：

监督微调（SFT）：在高质量指令-回答对上训练
人类反馈强化学习（RLHF）：通过奖励模型引导模型行为
DPO（Direct Preference Optimization）：直接从偏好数据优化模型

思维链与自我改进

思维链（Chain-of-Thought, CoT）通过在回答前生成中间推理步骤来提升模型的推理能力。这一技术的进化路径为：

手动编写 CoT 示例（Few-shot CoT）
简单提示“让我们逐步思考”即可触发（Zero-shot CoT）
自洽性（Self-Consistency）：采样多条推理路径，取多数投票
基于强化学习的推理（如 OpenAI o1/o3 系列）

推理模型的新范式

以 OpenAI o1 为代表的推理模型，通过在思维链上进行强化学习训练，实现了测试时计算的扩展——模型可以在推理阶段花费更多计算资源来“思考”，从而在数学、编程等复杂任务上取得突破性进展。

本章小结

后训练技术从简单的指令微调发展到了强化学习驱动的推理能力训练，代表了模型能力提升的另一条关键路径。

Transformer 应用前沿

神经科学启发的研究

讲座介绍了利用 Transformer 与认知科学/神经科学交叉的研究方向：

使用自监督 Transformer 模型解释大脑视觉皮层的响应
探索 AI 模型与人类学习效率差距的根本原因
将计算机视觉技术应用于 fMRI、超声等医学成像

计算机视觉与扩散模型

Transformer 已经深度渗透到计算机视觉领域，特别是在扩散模型（Diffusion Models）中取代了传统的 U-Net 架构，成为图像和视频生成的核心骨干网络。

本章小结

Transformer 的影响力已远超 NLP，在神经科学、医学影像、生成模型等领域都展现出强大的应用潜力。

当前挑战与未来方向

幻觉问题

大语言模型会生成看似合理但实际错误的内容，即“幻觉”（Hallucination）。这在高风险应用（如医疗、法律）中尤为危险。

持续学习

当前模型的知识在训练后即被冻结，无法像人类一样持续吸收新信息。相关研究方向包括：

模型编辑（ROME, MEMIT）：针对性修改特定事实知识
终身专家混合（Lifelong MoE）：动态添加新专家模块
渐进式提示（Progressive Prompts）：通过软提示实现无权重更新的持续学习

模型编辑的局限

当前的模型编辑方法主要适用于简单的事实性知识更新，难以处理技能或能力层面的更新，也无法自动传播关联变更（如更新某人母亲的信息时，同时更新其兄弟的相关信息）。

数据效率与模型压缩

如何让模型在更少的数据上学习得更好、如何将大模型压缩到可以在手机上运行，仍然是重要的开放问题。

本章小结

幻觉、持续学习、数据效率是当前 LLM 面临的核心挑战，也是通向更可靠、更实用 AI 系统的关键研究方向。

总结与延伸

本讲作为 CS25 V5 的开场，全景式地回顾了 Transformer 的技术栈：从基础的注意力机制，到预训练数据策略和后训练对齐技术，再到多领域应用与核心挑战。核心信息可以归纳为三点：

数据为王：无论是小模型的高质量数据训练还是大模型的分阶段数据策略，数据选择与混合都是性能提升的关键杠杆。
后训练是产品化的桥梁：从 RLHF 到推理模型，后训练技术决定了模型从“能力”到“产品”的转化效率。
开放问题仍然关键：幻觉、持续学习、可解释性等挑战尚未解决，是通向 AGI 的必经之路。

拓展阅读

Vaswani et al., “Attention Is All You Need”, 2017
Wei et al., “Emergent Abilities of Large Language Models”, 2022
Warstadt et al., “BabyLM Challenge”, 2023
Meng et al., “Locating and Editing Factual Associations in GPT (ROME)”, 2022