[CS25] From Worry to Wonder: Transformer Lessons — Ashish Vaswani
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于 Ashish Vaswani 授课内容整理 |
| 来源 | Stanford CS25: Transformers United |
| 日期 | 2026年4月2日 |
![[CS25] From Worry to Wonder: Transformer Lessons — Ashish Vaswani](cover.jpg)
引言:从达特茅斯会议到 Transformer
语境与讲者定位
Ashish Vaswani 以“用注意力取代递归”这一大胆设想刷新了 AI 的规范思维,他在 CS25 第 21 讲开场就引用 1956 年达特茅斯会议上对通用智能的乐观预期,讲述自己如何在那个“夏天”之后转而追求更实用的构件和可复用的架构。从历史到路径的连续让听众理解:Transformer 不是“解决特定任务”的实验,而是一个在时间与数据上可拓展的底座。

来源:视频画面时间区间:00:01:20–00:02:15,此处展示最早的 attention 架构与达特茅斯会议的对照。
历史与工程的对话
Vaswani 用 1956 年的设想指出:当年的人把“通用智能”看成可以在一个夏天解决的问题,他们在具体实现前没有足够的反馈闭环;而 Transformer 的诞生恰恰是基于一个闭环:模型设计→工程实现→大规模部署→再把经验反馈到建模上。
课程逻辑与录像分层
这场演讲从动机、架构、训练效率、跨领域应用到工程落地逐步推进,每个层级都包含实际案例,讲者不照抄字幕而直指“为什么要扩展、如何保持一致、下一步怎么做”。这种结构说明:笔记不能逐字记录,而要围绕“因果-工程-验证”三段式重新组织内容。
记录方式的陷阱
如果只依赖字幕片段,会错失讲者反复强调的闭环思维与“工程反馈”,会把讲稿写成“讲了哪些技术”而不是“哪些挑战被解决以及下一步方向”。
讲者再补充:本讲希望把“担心 Transformer 能否普适”这个老问题转化为“如何逐层验证每个组件”,把“担忧”转成“拥抱”的过程正是系列命名的灵感。
从担忧到拥抱的桥梁
Vaswani 用“递归走向注意力”的故事说明:真正的飞跃不是一次性把大模型训练好,而是在每个阶段都验证:attention 是否捕捉依赖?位置编码会不会退化?系统能否在产品中及时反馈?这套验证闭环是“拥抱”的底座。
本章小结
引言部分设定了基调:Transformer 的诞生源于对“弱通用能力”的务实追求,不是空想;播讲结构明确(动机→架构→部署→未来),后续笔记应按讲者的因果链条进行组织而非逐句抄写。
注意力基础:构建 Transformer 的三支柱
自注意力的软寻址
Vaswani 将注意力视作“soft addressing”,Q-K-V 的组合就是在查询和键之间计算相似度,再复用值向量。他强调:没有递归,只有矩阵乘法与 softmax,Transformer 才能在训练和推理时保持完全并行。
Attention 的数值表达
其中 \(\sqrt{d_k}\) 缩放保证 softmax 的梯度稳定,模型因此可以在极大参数量下收敛,而不是因 logits 过大而陷入饱和区间。
多头注意力与子空间分解
多头设计实际上是“在多个子空间里并行放大信号”。每个 head 有独立的 Q/K/V 投影,让模型在不同的粒度(如词法、语义、句法)上同时学习依赖。讲者指出,head 的数目应该跟实际任务复杂度、token 长度一起调参,而不是简单堆叠。
Scaled Dot-Product 与频谱控制
scaled dot-product(\(\frac{QK^\top}{\sqrt{d_k}}\))的缩放因子来自实践:如果不缩放,当 \(d_k\) 增加时,内积值会变得过大,softmax 收敛到近似 one-hot,难以继续学习。
| 参数 | 作用 |
|---|---|
| \(d_k\) | Query 与 Key 的维度,同时影响 attention logits 的尺度 |
| Head 数量 | 提供多个“视角”,但 head 太多会稀释每个 head 的信号 |
| 缩放因子 | \(1/√d_k\) 是经验值,防止 softmax 空化 |
并行与泛化的平衡
Vaswani 强调:多头并行是为了“快速探索不同的依赖路径”,而不是单纯为了增加参数。在不同任务上调 head 数和 \(\sqrt{d_k}\) 能保持并行性同时让模型有效泛化。
注意力图与正则化
讲者指出可以把 self-attention 视作一个动态图;每个 attention map 告诉我们“哪个 token 在什么时候被关注”。这个图容易出现“head collapse”,即所有 attention map 都高度相似,于是模型失去了多视角的优势。
防止 head collapse
Vaswani 推荐使用 attention dropout 与 head-level正则化:在训练阶段随机丢弃部分 head 或 attention 得分,迫使不同 head 探索不同通道,从而保持 graph 的多样性。
本章小结
本节用公式与参数表梳理了注意力的本质:真正的跃迁在于“soft addressing + 头的并行 + 缩放稳定”,这也是 Transformer 能跨任务的数学基础。
位置与表示:让集合运算变成序列建模
正弦/余弦位置编码
Vaswani 回忆:位置编码最初是用不同频率的 sin/cos 表达序列位置,这个设计的动机不是精确表示,而是提供一种“可微的、周期的、可推广到更长序列”的位置提示。
RoPE 与旋转位置编码
RoPE 的长上下文优势
Rotary Position Embedding(RoPE)用旋转变换把位置编码与 token 表示耦合,使得模型可以在训练序列长度之上继续工作,而无需重新学习新的编码。这个机制也解释了为什么当 RoPE 被采纳后,LLM 的“上下文窗口”能持续拉长。
Induction Heads 与模式复制
讲者指出,Transformer 会自动学习复制/递归模式(induction head),当给定“A,然后预测 A”这种结构时,部分 head 会专门捕捉复制关系。这种 emergent behaviour 说明训练过程中未显式引入的“归纳偏置”会自然出现。
位置编码的泛化陷阱
如果位置编码只在训练窗口内有效,超长输入会触发错误的 attention 权重,使模型误以为当前 token 与训练窗口末端等价。RoPE 及相对位置编码的推广正是为了修复这种泛化误差。
窗口边界与上下文切片
在演讲中,Vaswani 强调在训练/推理之间切分上下文时要保持一致。Token 超出训练窗口时,常用做法是按固定长度切片、加上 sliding window,再用 attention mask 让不同片段之间有限交互。
上下文切片的工程技巧
使用 sliding context window 时,可用“overlap + cache”策略:对每个新窗口复用上一窗口的 key/value,并在 head 中加 mask,确保 attention 只在必要的邻域内传播,避免过长序列中出现“记忆错误”。
本章小结
位置编码的目的不是记录“第几位”,而是给 attention 提供可平移的表示。RoPE、induction head 等机制保证 Transformer 即使面对更长序列也能找到重复模式。
效率与可扩展性:让 Transformer 走得更远
二次复杂度的瓶颈
自注意力的 \(O(n^2)\) 复杂度是扩展的最大阻碍。随着 token 数增加,Memory 与 compute 同时爆炸,特别是在超长上下文或跨模态输入中。
FlashAttention 与 IO 友好的实现
FlashAttention 优化了 GPU 中 attention 的内存访问模式:原本会先 materialize 全部 \(n \times n\) 矩阵,现在改为分块 compute,边算边算 softmax,极大降低显存压力。
FlashAttention 的工程洞察
1)分块计算 token\(\times\)token;2)避免完整矩阵存储;3)在 kernel 内部完成 softmax 与 dropout。结果是在不改变数学定义的前提下,把注意力速度翻倍、内存下降一半。
稀疏注意力与线性化
Vaswani 提到了 Sparse Transformer、Performer 等构建局部/线性 attention 的方案,基本思想是让每个 token 只与邻域或通过核函数缩减交互,目标是把复杂度降到 \(O(n \log n)\) 或 \(O(n)\)。
效率优化的三层面
- 算法层面:稀疏 attention/核函数;2. 系统层面:FlashAttention 的 cache-friendly 访问;3. 硬件层面:定制化 tensor core 专用于 attention。
缓存与混合精度
Vaswani 还强调部署场景中 key/value 的缓存复用:predict 阶段保持历史 key/value,不再每次 recompute,搭配 bfloat16 训练/推理,既节省显存又保持精度。
缓存与精度的协同
在长上下文推理中,把历史 key/value 缓存在专用缓存区、以 bfloat16 形式存储,在新的 attention 窗口中直接读取可以节省 30% 以上的推理时间,同时 bfloat16 的动态范围保证数值稳定。
本章小结
效率挑战不是单点问题,而是算法、系统、硬件协同的结果。FlashAttention 证明即便保持原始 attention 定义,仍能通过系统优化降低成本;稀疏/线性方案则为超长上下文铺路。
训练与 scaling:怎样让注意力更懂世界
数据、tokenization 与正则化
Vaswani 指出,Transformer 的训练数据必须包含足够多样的语义、结构与视觉。tokenization 需要对低频 token 保持可解释性,正则化(如 dropout、label smoothing)则避免 1:1 拷贝,保证泛化。
| 数据源 | 角色 | 评估维度 |
|---|---|---|
| 大规模网页/书籍/代码 | 提供语义+逻辑多样性 | perplexity、常识推理 |
| 结构化 benchmark(GLUE、MMLU) | 监督信号的对齐 | few-shot accuracy、NLI |
| 产品反馈/标注回路 | 反馈细粒度错误 | 人类反馈通过率、alignment 变化 |
数据与评估的联动
数据源越多样,不代表训练后就能直接泛化;需要把每条来源绑在一个评估指标上,如用产品反馈测 alignment,用 benchmark 测 zero-shot。Vaswani 强调:评估要跟数据一起设计。
Scaling Laws 与实验观察
讲者回顾 GPT-3/Chinchilla 与 PaLM 的 scaling 曲线:模型、数据、compute 三者在特定比例上成线性提升。Transformer 基于 attention 的并行性,使得增加参数后不需要重新设计网络就能继续扩容。
评估与基准
除了 perplexity,Vaswani 强调任务层面的 evaluation,例如“少样本推理稳定性”“long-context coherence”与“可解释性之间的 trade-off”。
过度追求参数的风险
把注意力堆成 1 万亿参数,若没有对应的数据与 evaluation,就会出现“loss 下降但行为混乱”的现象。工程观察指出:真正的 scaling 是 data + tuning + monitoring 的同步上升,而不是单一的模型放大。
反馈驱动的评估计划
Vaswani 把“一次训练跑完”当成失败:真实部署要求持续收集人类反馈、使用 RLHF/TRL 放大 Goodness 信号。每个更新都要把人类纠错当作新的 attention 模式进行微调。
从反馈到训练的闭环
1)用户纠错 → 2)生成 attention heatmap → 3)找到误导 head → 4)重新调整 attention mask/下游 loss。这个 pipeline 让模型在实际使用中持续提升,而不是在 benchmark 过后停滞。
本章小结
训练 Transformer 不是把参数无限堆起来,而是把 attention、tokenization、regularization 与评估同步打磨,让 scaling laws 在真实场景下持续发挥作用。
跨领域通用性:从语言到视觉再到机器人
应用广泛的成功案例
Vaswani 罗列 Transformer 在 ViT、AlphaFold、Whisper、Codex、RT-2 等场景的落地,并指出适应这类任务的关键在于“把非结构化数据变成 token 序列”。
解释性与 induction head
通用性的解释框架
Transformer 成功的原因之一是把几乎所有复杂系统都映射为序列,然后依赖 attention 路径找到依赖关系。Induction head、归纳偏置、类-重写机制都说明:即使没有特定模块,只要 token 排列得当就能复用。
部署中的反馈闭环
工程层面,Vaswani 强调产品化必须把用户反馈(如人为 correction)纳入训练:每次用户的纠正都要变成一个 attention 模式的调参 signal,形成“产品→训练→再部署”的闭环。
越界的通用性
当模型被错误地应用到“非序列化”任务时(如低维度物理仿真),attention 容易收敛到“无意义的平均”,导致决策失真。需要事先检查数据是否真正可以 token 化。
跨模态 token 化
为了把视觉、语音、代码、动作都丢进同一个 attention map,Vaswani 认为需要定义“跨模态 token”。例如:ViT 中把 patch 嵌入而不是整图;语音先经过 filterbank;机器人动作通过离散 token 化。统一的 token 化让 attention 仅关注重要的跨模态交叉。
跨模态 token 化的价值
把 patch + token + action 统一成 token 序列的好处是:不再需要对每个模块写专用接口,attention 只需多了几个 modality embedding 就能同时处理视觉与动作,简化了系统工程复杂度。
本章小结
Transformer 的通用性不在于“放到任何任务都能得高分”,而在于把任务表达为 token 序列并持续注入反馈。使用 induction head、闭环反馈与 careful tokenization 能把同一架构用在语言、视觉、控制等多个领域。
工程实践:Transformer 的生产落地
多模型拼接策略
Vaswani 描述了一个典型的 pipeline:先由专门的 encoder 负责视觉/语音 token 化,再把输出拼接送进一个 shared transformer decoder,在 decoder 末端再用多头 linear layer 分别扔到不同任务。这种“多模型拼接”减少了重复训练。
共享 decoder 的优势
共享 decoder 既保持统一 token 序列,又能让不同模态之间在 attention map 里直接交换信息,减少单独模块之间的 API 复杂度,特别适合在多模态产品中快速迭代。
监控与安全指标
在产品中,除了传统的 perplexity,还要实时监控“hallucination 率”、“prompt sensitivity”与“attention drift”。Vaswani 强调,attention map 的可视化能帮助定位问题 head,从而快速 rollback 或 patch。
安全监控的防线
大模型的 hallucination 可能在生产中瞬间放大一千万倍,必须设定触发阈值:一旦 attention map 显示某个 head 过度关注虚构 token,系统要自动切换到 fallback 模型并把这一行为记录为 incident。
模型版本与回滚机制
讲者提到,工程团队使用版本化的 attention 配置(如 head 数、dropout 概率)并与线上 metrics 绑定。一旦回归测试失败,可以切换到上一个 attention 配置而不是 entire checkpoint,带来更快响应。
快速回滚策略
1)把 attention config(head、dropout、scale factor)与 checkpoint 解耦;2)在 config 层面回滚时保持数据 pipeline 不变;3)再训练/推理时只重新加载 config,就能在 minutes 内恢复 stability。
本章小结
工程实践强调“把 attention 看作配置而非黑盒”:共享 decoder、实时监控、灵活回滚构成了一套可操作的生产流程。
现场问答与设计建议
问:为什么放弃 RNN/Recurrence?
Vaswani 在问答环节被问到“为什么不用 RNN 处理长序列”,他的回答是:RNN 的隐状态会抑制并行,attention 的图结构更易 debug;并且 RNN 无法学习 global dependencies,而 attention map 可以直接可视化。
- 使用 attention 让 inference 更容易 parallelize;
- 通过 scaling 让 attention 在长序列中仍保持稳定;
- 跟踪 attention map 可帮助排查数据 drift。
问答中的核心建议
把 attention 视作“可解释的动态图”:在问答中,Vaswani 建议用 attention map 检测 hallucination、用 dropout 调整图的 sparsity,而不是仅凭 loss 值判断模型好坏。
问:如何管理推理 drift?
用户反馈环节提到“模型在 session 中突然失控”的案例,讲者建议从 attention drift(attention map 突然集中在末尾 token)中定量监控。一旦 drift 触发,就切换到 smaller context window 并记录事件。
drift 触发的防线
设定 two-tier threshold:轻微 drift 只触发 warning log,严重 drift 则触发 fallback 模型。fallback 可以先关闭部分 head,重新初始化 attention mask,再逐步放开。
问:混合专家模型的时机
在讨论 mixing experts/LoRA/adapter 之类的轻量化手段时,Vaswani 提到并不是所有阶段都需要混合专家:只有在 compute 瓶颈明显、用户覆盖面广泛时才这样做。否则只用 single shared transformer 就足够。
混合专家的启发
1)在训练早期保持 single path;2)当 dataset 过于 heterogeneous 时,引入 sparse expert + gating;3)保持 gating stats 公开,以防某个 expert 被永久忽略。
本章小结
现场问答提供了许多现实世界的 engineering 建议:把 attention map 当作 debug 工具、把 drift 设 threshold,再在真正需要时引入混合专家,而不是随意增加复杂度。
数据治理与可观察性
数据版本与可追溯性
Vaswani 提到每次训练都要记录数据 snapshot、tokenizer config、attention config,以便追溯。处理 long tail 的结构化数据(如论坛 discussion)时尤其需要版本控制,否则无法重复定位 bug。
可追溯训练的五要素
数据 snapshot、tokenizer config、attention head config、hyperparameter set、evaluation results。讲者建议把它们打包进一个 metadata bundle,方便出现 Hallucination 时快速回滚。
标签质量监控
训练集中存在 label noise 时,attention map 会集中在错误 token。Vaswani 的建议是:使用 small-scale human eval set 进行定期抽查,并记录 attention drift metrics(如 head entropy)。
标签污染的风险
如果 label noise 在训练中被放大,模型会学习到“错误 pattern”,导致 hallucination。必须配合 attention heatmap、loss dynamics 监控,一旦指标偏移就用于 retraining。
可观察性与告警
工程团队在 production 中把 attention map 和 prompt 绑定:一旦 attention entropy 跌落,说明模型在重复某个 token,需要发出告警并自动触发 fallback pipeline。
告警机制的构成
1)关注 attention entropy、head variance;2)把序列中 attention 置信度低的 token 打上“待复盘”标签;3)在 deployment 时自动 dump 相关 attention map 给 data scientist。
本章小结
数据治理与 observability 的目标是让大型 attention 模型透明可控:把每次训练内容版本化,把标签质量数字化,把 attention drift 变成可报警的指标。
Prompting 与 Alignment 设计
Prompt scheduling
Vaswani 推荐在 prompt 里保留“history + instruction + safety” 三段,每次 inference 先用 short history warm-up,再加载 instruction,无需把超过 2k token 全部换入 attention map。
Prompt scheduling 的分段法
1)warm-up:5 10 个历史 token;2)instruction:核心意图;3)safety:对齐 guardrail。Vaswani 认为这样的分段比把所有历史堆在一起更容易维护 alignment。
Chain-of-thought 与 RLHF
讲者支持使用 chain-of-thought prompt 让 attention map 分阶段推理,再用 RLHF 把 favor list 固化。每次 RLHF 更新都要把新 preference 翻译成 attention bias(比如 bias head 关注“思考” token)。
Chain-of-thought + RLHF 的协同
Chain-of-thought 让模型自己展示 reasoning steps,RLHF 则强化那些 steps 的 attention pattern。两者同时启用时,需要把 RL reward 反馈的 gradient 限制到 attention bias 层,避免直接改变底层 weights。
Alignment 指标
除了 perplexity、accuracy,Vaswani 强调 alignment 指标:如 “instruction fidelity”、”hallucination gap”。这些指标依赖 attention map 与 prompt structure,一旦指标触底就需重新调度 prompt。
Alignment 指标的监控
定义 alignment 指标应该涵盖 content accuracy、safety compliance、user intent coverage。定期把 attention map 与这些指标对齐,避免“指标好但行为偏离”的盲点。
本章小结
Prompting 与 alignment 设计是一门工程:要分段 schedule、把 RLHF 与 chain-of-thought 协调起来,并把 alignment 指标 concretely 绑定到 attention heatmap。
未来与闭环:从硬件到人类交互
人机交互的反馈闭环
Vaswani 展望将 Transformer 嵌入产品的未来:用户反馈、在线 learning 与 DPO/TRL 等技术构成一个闭环。真正的产品能力在于让模型随时间自我修正,而不是一次性训练完就交付。
硬件协同与定制化
他建议:当架构逐渐确定后,把 attention 模块的计算模式“硬编码”为 FPGA/ASIC,避免每个 deployment 都依赖通用 GPU,这样 latency 可以从几十毫秒降到个位数。
伦理与可解释
讲者强调在 scaling 的同时要关注 fairness、可解释性与通知策略。attention 的稀疏化和 induction head 的可视化成为审计模型是否遵守规定的手段之一。
可持续工程
Vaswani 提醒:绝对的参数越大、能耗越高,长久只能靠可持续工程。团队正在探索 partial fine-tuning、模型压缩 + distillation,把大型 attention 模型拆成几个子模块动态调度。
可持续工程的重要性
在 production 中把一个 1T 参数模型一直跑下去代价过高,必须把 attention 调度成“热点”+“冷点”组合,把常用思路缓存,冷启动时再 load其他 head,这样可把 compute 需求减少 30% 以上。
未来的关注点
1)交互闭环:让用户纠正变成训练信号;2)硬件协同:把 attention 模式定制化;3)审计可解释:用 attention heatmap 找出偏差源。
本章小结
未来的 Transformer 更像一个“持续学习系统”:用户反馈、定制硬件与审计工具共同构成一个可治理的闭环,避免“参数越大越难控”的常见误区。
案例复盘:把 Transformer 原则落到系统设计
从单模型到分层系统
Vaswani 在讲座尾声不断回到一个问题:如果已经理解了 attention、position、scaling 与 feedback,团队在现实系统里到底该怎么组装它们?他的答案不是“再堆一个更大的模型”,而是把 Transformer 变成一套分层系统:底层负责 token 与表示,中层负责路由、缓存与推理,上层负责对齐、安全与用户反馈。这样的拆分让团队既能享受统一架构的规模效应,又能把不同风险点放进可单独治理的模块。
| 系统层 | 关键职责 | 对应的 Transformer 原则 |
|---|---|---|
| 表示层 | tokenization、position、embedding 对齐 | 输入必须可序列化,位置编码要能外推 |
| 推理层 | attention 计算、KV cache、decoder 生成 | 保持并行性,同时减少无谓重复计算 |
| 治理层 | prompt policy、feedback、fallback、审计 | 把用户纠错与线上指标接回训练闭环 |
为什么分层比端到端更可控
讲者并不否认 end-to-end 训练的重要性,但他强调生产环境的调试成本远高于论文实验。把表示、推理、治理分成三层,意味着团队可以分别排查:是 tokenization 有问题,还是 cache 设计不当,还是 prompt policy 让行为偏离;这比只盯着总 loss 更接近真实工程。
把课堂原则投射到典型产品
为了让听众看到这些原则不是抽象概念,Vaswani 给出一种典型产品路径:检索型助手、代码代理、企业 Copilot、机器人控制系统,都可以看成“共享 Transformer 核心 + 特定外围模块”。差别不在 backbone,而在外部记忆、工具权限与评价信号的设计。
四类产品的共同骨架
1)统一 token 接口,把文本、文档、日志、动作都变成模型可消费的序列;2)在推理层复用 KV cache 与 retrieval context,避免重复读取;3)对关键工具调用配置 guardrail;4)持续收集用户纠错,把线上错误翻译为新的训练信号。
| 产品形态 | 最关键的附加模块 | 最常见失败模式 |
|---|---|---|
| 检索助手 | 文档检索器、引用跟踪器 | 检索到了证据,但生成时忽略来源 |
| 代码代理 | 执行沙箱、单元测试、diff 审核 | 局部修改成功,整体依赖被破坏 |
| 企业 Copilot | 权限控制、审计日志、组织记忆 | 回答准确但触碰越权数据 |
| 机器人系统 | 传感器编码、动作离散化、安全停止 | 长链行动中累积误差后失控 |
最大误区不是模型不够大,而是系统没有闭环
很多团队把失败归因于参数量不够,却忽略更常见的根因:没有 retrieval 证据链、没有 prompt versioning、没有 drift 告警、也没有把用户反馈转成训练数据。Vaswani 的观点很明确:闭环能力弱的系统,即使换成更大的模型,也只会更昂贵地重复同样的错误。
研究启发:下一代 Transformer 该优化什么
在这节复盘里,讲者把未来研究归纳成三个方向。第一,更好的上下文管理,也就是在长上下文、检索上下文与工具返回结果之间做统一路由;第二,更便宜的推理,包括 attention kernel、cache 复用和专用硬件;第三,更可审计的行为,让模型在输出前后留下足够多的因果痕迹,便于人类复核。
从课堂到研究路线图
如果把 Transformer 看作基础设施,那么未来竞争不会只发生在参数量上,而会发生在谁能更稳地管理上下文、谁能更快地定位错误、谁能把用户反馈更高质量地再训练回系统中。
本章小结
这一节把整场讲座的概念汇成了可执行的系统观:Transformer 不只是一个网络结构,而是一种组织复杂智能系统的方法。决定上限的,往往不是单个模型 checkpoint,而是表示层、推理层与治理层是否形成了稳定闭环。
总结与延伸
| 主题 | 关键收获 | 下一步方向 |
|---|---|---|
| 注意力设计 | soft addressing + scaled dot-product 让架构可并行 | 精调 head 数、探索更多频率缩放 |
| 位置与泛化 | RoPE 与 induction head 支持超长上下文 | 把相对位置引入多模态 |
| 效率与部署 | FlashAttention 优化 memory,稀疏方案降低复杂度 | 结合定制硬件进一步压缩 latency |
| 训练与 scaling | 数据/feedback 与评估联动才能支撑 scaling law | 把人类反馈嵌入每次迭代,螺旋式增长 |
| 未来闭环 | 跨模态 token 化与可持续工程让通用性可治理 | 建立稳定的治理 + 显示闭环监控平台 |
拓展阅读
- Vaswani et al., “Attention Is All You Need,” NeurIPS 2017.
- Su et al., “RoFormer: Enhanced Transformer with Rotary Position Embedding,” 2021.
- Dao et al., “FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness,” 2022.
- Brohan et al., “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,” 2023.
- Kaplan et al., “Scaling Laws for Neural Language Models,” 2020.
- Hoffmann et al., “Training language models to follow instructions,” 2022.
本章小结
Vaswani 的第 21 讲从历史到未来,搭建了一个“attention→position→efficiency→反馈闭环”的全景视野。真正的容量来自 attention 模块的稳健设计、训练数据与系统优化的联动,以及反馈闭环带来的治理能力。