[CS25] Intuitions on LMs + History of Architectures — Jason Wei + Hyung Won Chung, OpenAI

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于 Jason Wei 与 Hyung Won Chung 在 Stanford CS25 Transformers United 公开讲座整理
来源	Stanford CS25: Transformers United
日期	2024年04月26日

引言：讲座定位与结构化复现

课程概览

Lecture 27 由 Jason Wei 与 Hyung Won Chung 联合讲解：前者围绕“为什么语言模型表现如此出色”分享了大量来自预训练数据与 prompt 的直觉，后者围绕架构演化、归纳偏置与 “苦涩的教训” 提供了数学与工程视角。两位讲者在 Q&A 环节共同强调：LLM 的力量源于简单方法 + scale + 数据治理。

素材与结构策略

课程封面 / slide（00:00:05–00:00:25）。

来源：封面来自 Stanford CS25 公开 slides，后续如有其他 slide 图像请放在本目录 slides-images/ 并保持命名一致。

复现素材原则

优先引用讲者提供的 slides 与关键截图；如无可用图片，则通过表格、流程图与 Box 结构重现讲述顺序，并明确列出时间段与关键词，方便读者在原视频中对照。

讲座时间线

时间段	内容概览
00:00–00:09	对 Jason 的介绍、LLM 的 emergent ideas、数据直觉
00:09–00:24	Instruction tuning、Chain-of-Thought 与 prompt metrics
00:24–00:38	Hyung Won 讲述 Bitter Lesson、架构演化与归纳偏置争论
00:38–00:55	自回归/decoder-only 的扩展、训练目标对比
00:55–01:02	Q\	A、实践建议、治理与复现 checklist

Lecture 27 的时间线与章节分布。

时间线的使用方式

把时间段和主题写入笔记有助于复盘：每次看视频只需跳到本表对应区间即可；若需要深入分析某一个主题，可结合 timecode+table 快速定位 slide/quote。

本章小结

本节说明本讲的双轨策略：Jason 负责 data/prompt/performance 的直觉，Hyung Won 则把架构与归纳偏置放到长期 scaling 的历史脉络中；整个笔记按教学逻辑重新拆解，方便后续复现与治理。

数据直觉与 emergent 能力

理解数据即理解模型

Jason Wei 强调：LLM 的能力不是来自某个新架构，而是数据里的隐式 “任务”。他亲手翻阅训练语料，发现其中含有翻译、数学解题、代码片段、对话、百科等多种模式；语言建模的目标驱使模型为每种模式学会不同的技能。

语言建模的多任务隐藏层

LLM 的下一个 token 预测需要整合语法、语义、常识推理和 task formatting，因此它从数据中隐式吸收了 “翻译、推理、编程、对话” 等任务。如果数据缺失，模型在对应能力上会显著退化。

Manual data review 与 emergent cues

Jason 详细介绍他在训练前走一遍数据的习惯：把训练语料分成 chunk、人工审阅特殊 tokens、提取 multi-turn 交互。通过这样的工作，他归纳出几点 emergent cue，鼓励团队把相同的流程复制到自己的项目。

人工数据审查的五个步骤

抽样多语言文本、文档、对话
统计 token frequency 与 rare token 列表
识别长链条的推理与步骤式文本
标注 prompt-like 标题（“Step 1/2”）与答案分隔符
用轻量脚本生成 attention map（或 heuristics）以发现分布 shift

Emergent phenomena 的 evidence stack

Lecture 27 重复出现这个核心句：“Emergence is real when multiple evidence lines all shift at once.” Jason 建议同时观察（1）loss/perplexity 曲线、（2）prompt trace（是否需要 CoT）、（3）attention entropy 以及（4）抽样输出的 stability；只有多个维度协同跳跃时，才能断言一个能力是真正 emergent。

误判 emergent 的三个陷阱

只看 accuracy/精确匹配；可能是 metrics 过于敏感
单次 trial 的涨幅，很可能是 noise
没有控制 prompt/system message 的时候，无法复现

多模态 prompt shift

Hyung Won 补充：当把图像、音频转成 token 时，同样可以看到涌现；只是引入新的 attention bias（如 per-modality token embeddings）后，需要稳定 prompt shift（“先识图再问”）。

多模态 emergent 的提示实践

用不同 token prefix（“[image]”, “[audio]”) 将模态区分开
设定约束（“先描述再回答”）减少 hallucination
观察 attention heatmap 是否对齐到 vision token，而不是仅靠 text

数据治理与规范化

Jason 强调 emergent 研究必须先把 data pipeline 定义清楚：每个 dataset 都要记录采集 source、split 逻辑、dedup 策略与 sensitive content filter，以便后续复现或提供 compliance report。

字段	描述
Source	抽样 website / corpus / internal doc
Split	train/validate/test 的 token 分割方式
Dedup	ngram overlap 或 semantic hash 过滤阈值
Safety	黑名单、PII scrub 策略

数据治理时需记录的关键属性。

数据治理的价值

在 emergent 现象触发后，团队需要回溯 “是哪批数据” 使模型跳变；如果没有详细治理记录，就无法判定是否引入有问题的样本。

数据可观测性与工具

为了让 emergent 现象可追溯，Jason 建议把数据采样、attention map 和 prompt trace 交给统一平台。下表展示了一个轻量级数据观测 pipeline：

组件	描述
Sampler	定期从数据 lake 中抽样多模态 chunk（text/image/code）
Instrumenter	记录 attention map、CoT trace、token distribution
Dashboard	显示 loss/perplexity + drift metric，支持 drill-down

简单的数据可观测 pipeline。

数据仪表盘的价值

把 instrumentation + dashboard 链接到 prompt log，可以在 emergent drift 发生时立即 trace 到具体数据 batch，而不是仅依赖后验分析。

本章小结

本节将 emergent ability 的经验归结为 “写清数据+prompt+attention+metrics” 四要素；如果只追求参数量而不排查上述维度，就难以复现 Jason 所描述的现象。

提示工程与 reasoning orchestration

Instruction tuning 是格式化而非新能力

Jason 把 Instruction Tuning 描述为 “让模型把已有知识用新的纸张打印出来”。以 FLAN/PaLM 为例，单纯在多任务指令上 fine-tune，模型在零样本任务上的表现即可立刻提升；说明模型底层已经具备能力，只需要 prompt 来调度。

Instruction tuning 的常见误区

误以为 tuning 训练了新能力，其实只是在改变 sampling distribution
过度依赖 few-shot 示例，导致 context window 被 prompt 占满
忽略 prompt drift，改了 prompt 但不记录版本，就看不到 performance 变化

Chain-of-Thought 与 Self-Consistency

CoT 的本质是 “prompt 里先给出思路，再让模型重演”。Self-Consistency 进一步通过采样多个 CoT 路径并投票来减少偶发错误。

方法	核心机制	典型收益
Chain-of-Thought	给出 step-by-step	解题准确率 +15%
Self-Consistency	多路径 majority vote	抑制 single path failure
Least-to-Most	分层 prompts	适合长链任务

讲者提及的三种推理提示策略。

提示工程的治理建议

把每次 prompt/CoT pattern 写进 prompt log（格式：Prompt ID、Role description、Examples、Sampling parameters、Metric diffs），并与 evaluation dashboard 里的 drift metric 关联；一旦 accuracy 指标下降，可以凭 log 快速回滚。

Prompt 仪表盘

Jason 进一步建议在 prompt log 上挂上 self_consistency_score、hallucination_rate、token_budget 和 sampling_temperature 等字段，方便分析 prompt drift。

字段	说明
Prompt ID	Git tag/hash，便于复现
Role + Examples	CoT 模板与 role-play
Sampling params	temperature / top_p / candidate count
Metric diffs	前后 accuracy/self-consistency 对比

Prompt 仪表盘中需要记录的关键字段。

Prompt Stress Testing

讲者强调：每次 prompt 改动都应经历 “stress testing” —— 选取 hardest-case prompts、insert adversarial tokens、vary temperature/backoff 以观察 performance drop。对于 prompt drift，应提前设定 rollback plan。

Prompt stress testing checklist

Run CoT prompts under different seeds/temperature; check self-consistency variance
Inject adversarial tokens or hallucination triggers; confirm no uncontrolled behavior
Monitor token budget + latency to prevent prompt size blow-up

Prompt regression guardrail

把 stress testing 的结果记录在 prompt log，对比前后 accuracy/self-consistency；若发现 degradation > threshold，即刻回滚到先前的 prompt 版本。

本章小结

Prompt 不是一次性输入，而是人与模型之间的 orchestration：只有把 instruction tuning、CoT、dashboard 与 metric drift 结合，才能把 emergent ability 稳固下来。

架构演化与归纳偏置

The Bitter Lesson 与计算优先

Hyung Won 引用了 Sutton 的 “The Bitter Lesson”，说明 “用计算而不是手工归纳” 是达成长期 scaling 的唯一路径。工程师需要问自己：“我正在往模型里注入多少归纳偏置？是否可以通过 scale + data + compute 达成同样效果？”

Sutton 的三条启示

人类知识在有限 compute 下有效，但不具备 scaling
更泛化的模型往往是 compute-intensive 而非 architecture-heavy
归纳偏置想增加但也要有退出策略（revert to simpler architecture when compute grows）

从 encoder-decoder 到 decoder-only

Hyung Won 沿着历史讲述了 Encoder-Decoder（2017）、BERT（2018）、GPT（2018+）的演化。Decoder-only 架构的核心好处在于 KV cache，可让多轮对话快速复用之前的 key/value，从而拉低推理 FLOPs。

双向注意力的伸缩问题

BERT 等编码器架构需要重新计算全部 attention，因此在长 context 中开销爆炸；decoder-only 通过因果 mask + KV cache，令训练和推理都具备线性扩展性。

训练目标的变化

目标	架构	主要假设
Masked LM	Encoder	需要双向上下文
Prefix LM	Encoder-Decoder	encoded prefix + causal decode
Autoregressive LM	Decoder-only	只看过去，易 scale

几种主流训练目标与对应架构的区别。

Scale Law 与优化器选择

Hyung Won 指出，scale law 表示 loss 与 compute 之间呈幂律关系，因此进入 scaling regime 时必须重新调优 optimizer + lr schedule。典型流程是：先用 AdamW + cosine decay 进行 warmup，再根据 attention scale 观察是否需要进一步减小 lr 或增加 batch。

Scale law 经验值

loss \(\approx\) constant \(\times\) \(\mathrm{compute}^{-0.05}\)，compute = params \(\times\) tokens \(\times\) 6
batch 太小无法进入 regime，需 gradient accumulation
监控 attention scale，有助于判断是否需要 LR warmup/stretch

优化器与 warmup 策略

AdamW + cosine decay 是 transformer scaling 的常用组合
warmup 阶段要缓慢把 lr 提升到 target，避免 early loss 爆炸
遵循 linear scaling rule：batch \(\times\) lr \(\approx\) 常数，便于增加 batch 时同步调参

归纳偏置的判断准则

如果一种结构需要 “人为指定 how to attend”，可能正在引入归纳偏置；若它只是提供更少的假设（如 decoder-only），就更容易 scale。

本章小结

架构演化是一条 “减少人为假设 + 增加 compute” 的路径：讲者用实证与经验告诉我们，在面向 scaling 的时候，最可靠的策略是先移除结构，再投放计算。

评估、监控与治理

多维度评估矩阵

为了避免 emergent drift，Jason 设计了一个评估矩阵：准确率/任务表现、prompt drift、hallucination rate、token budget、CoT fidelity 等需要同时追踪。

维度	指标举例	工具
准确率	BLEU/F1/custom	Eval harness
鲁棒性	Adversarial prompt	adversarial suite
Hallucination	Fabrication rate	human annotator + knowledge graph check
Prompt drift	Self-consistency drop	versioned dashboard

智能体/LLM 的评估矩阵。

评估数据管道与报警

讲者建议把评估 pipeline 分成 instrumentation、aggregation、alerting 三段：先采集 prompt+tool调用+attention snapshot，再把 metrics 送入 dashboard，最后设定阈值 triggers 及时通知。

评估 data pipeline 的三步

Instrumentation：每次 infer 记录 prompt、tool、attention map
Aggregation：定期刷新 metrics 看是否 drift，并与 compute budget 对齐
Alerting：Accuracy or hallucination 超阈值时发起 rollback

Hallucination taxonomy

为了治理 hallucination，Jason 建议把 hallucination 分为 three classes：fact-unsupported、failure to recall context、and prompt-induced hallucination。每种类型都需要不同的反馈 loop，例如 fact-unsupported 需要 knowledge graph check，prompt-induced 需要 prompt stress testing。

Hallucination 分类与 대응

fact-unsupported：vs knowledge graph + web verification
context loss：增加 context window & caching
prompt-induced：锁定 role + CoT template

本章小结

评估不是单一指标，而是可审计、可回溯的闭环；数据 pipeline + dashboard + alerting 才能在 emergent world 里保持可控。

部署、复现与团队实践

部署准备 checklist

Jason 和 Hyung Won 共同强调：部署前必须校验 prompt stability、token budget、fallback 策略与监控 hook。

项目	核心检查	状态
Prompt 稳定性	不同输入的 Self-consistency	已就绪
Token 预算	每次请求 FLOPs 对齐 compute cap	已就绪
Fallback	API / 缓存降级方案	待完善
Monitoring hook	latency/loss/attention	已就绪

部署前必须校验的关键指标。

SLI/SLO 与成本控制

SLI/SLO 参考

Latency SLO：99% 请求 < 1s
Accuracy SLI：Self-Consistency+CoT 精度达标
Token budget：每月消耗不超预留

Incident Response 与 grade-book

Hyung Won 提到：治理 emergent drift 需要 “incident grade-book”，记录 Alarm、Root cause、Resolution。每次 incident 都要归档 prompt log、evaluation snapshot 与 fix script，避免重复 error。

Incident grade-book 示例字段

Alarm trigger：self-consistency drop / hallucination ratio spike
Root cause：prompt drift / data shift / compute overload
Resolution：rollback prompt / retrain / add guardrail

Tooling stack 与 observability

部署 pipeline 应覆盖 prompt log、attention heatmap、latency/failure metrics，再加上 tool call trace（doc search、python 执行）。

层级	工具/实践
Prompt	Prompt log + versioned dashboard
Inference	Monitoring hook + latency/failure metrics
Tooling	API call trace + sandbox constraints
Observability	Attention/Config snapshot + drift alert

部署时的 tooling stack。

复现 pipeline 与知识管理

复现实践的沉淀机制

把 prompt log + config + sample output 写入 notes/ 目录
用 git tag 记录 stable prompt/config，并排期 review
维护 slides-images/ 与 frames/，让团队新人快速上手

智能体典型案例

讲者以“自动研究助理”为例：输入需求后拆成子任务，依次调用 doc search、python executor、web fetch，再由 human review + self-consistency 检查结果，完成报告。每个工具调用前插入 reasoning trace 以防 hallucination。

阶段	人机协作
需求理解	Prompt 拆分任务、assign role
工具调用	Doc search + code executor + web search
结果验证	Human review + self-consistency votes

自动研究助理的工作流。

团队角色与知识共享

部署和复现需要跨角色协作：Jason 指出一个典型团队包括 data engineer、model engineer、prompt engineer 与 evaluator。每次 run 都必须写入 prompt log, attention snapshot, grid search summary，以便后续 replicate。

团队协作的 artifact

data engineer：dedup log、tokenizer config
model engineer：training log、attention heatmap、scale law plots
prompt engineer：prompt versions、CoT templates、stress testing reports
evaluator：hallucination annotation + drift alert summary

本章小结

部署与复现不是补充，而是主线：从 SLI/SLO 到 prompt log 再到自动化案例，每一步都要写实并可追踪。

案例驱动演练

Emergent detection drill

设计 emergent drill 时要把 “baseline metric + prompt guardrail” 视为 control group，再定义 “emergent metric”（如 multi-step accuracy × CoT fidelity）作为 treatment。Jason 建议每周开展一次 drill，把 emergent jump、hallucination sample 以及 prompt drift log 一起分析。

组件	操作
Control metrics	loss/perplexity + token budget
Treatment metric	multi-step accuracy × self-consistency
Drill cadence	每周一次，包含 prompt log + attention snapshot

Emergent detection drill 的结构化流程。

Drill 的目的

通过 structured drill 快速判断 emergence 是否真实：若 multi-step accuracy 与 CoT fidelity 同步提升且 hallucination rate 不升高，则可认为 emergent 已经稳定。

Agent safety drill

Hyung Won 建议把 agent safety 训练成 “prompt + tool + fallbacks” 的组合：每次施加 adversarial instruction（例如 delete all files），观察 guardrail 是否及时触发；若没有，必须更新 reasoning trace 的 stop tokens。

安全演练清单

针对 high-risk commands 触发 multi-factor confirmation
检查 tool call 是否在 sandbox 执行，防止 data leak
记录 reasoning trace 和 human review log 以备审计

本章小结

案例演练让 emergent ability 与 agent safety 不再是 abstract theory，而是每周 checklist；通过 structured drill，团队可以把 observed drift 及时转化为 governance action。

Q&A 与实践提醒

现场问答精华

在 Q&A 环节，Jason 重申 “emergent ability 需要 multi-metric evidence”，Hyung Won 回答 “reduce structure, ramp compute”. 他们还强调 prompt log 要包含 role、CoT template、version hash、mixture of few-shot + zero-shot 化的配比。

实践提醒

记录 prompt version 及 sampling 时的 seed/temperature
每次 major drift 都要有 artifact（prompt + dataset + attention map）
让 evaluator 直接在 dashboard 点出 drift case 并发起 alert

课堂 takeaways

讲者最后建议：把 emergent/agent research 做成 “observation → instrumentation → governance” 的闭环，并让整支 team 每周 review 一次 incident grade-book。

Takeaway checklist

Oberserve emergent jump across metrics before declaring success
Instrument prompt/data/code artifacts with per-run metadata
Govern via prompt log, incident grade-book, evaluation dashboard

本章小结

Q&A 的重点在于把上文提到的 artifacts 串成闭环：观察 → 记录 → 治理，让 emergent/agent 研究能在可控范围内不断迭代。

术语与指标速查

关键术语

术语	释义
CoT	Chain-of-thought，向模型展示完整推理步骤
Self-consistency	多路径采样后取众数，减少偶发错误
Governance loop	Prompt log + dashboard + incident grade-book
KV cache	Key/value 缓存，用于 decoder-only 多轮对话加速

Lecture 27 重复出现的几个关键术语。

常用指标速查

指标	用途
Self-consistency score	评估 prompt/draft 是否一致
Hallucination rate	记录 fabrication 事件占比
Token budget	每次请求的 token/compute 限额
Attention entropy	判断模型是否跳到不同模式

治理与调试时常用的指标。

本章小结

把术语与指标写下来，便于新成员快速理解讲座用语，也可以在 incident review 中快速定位 key term。

行动与落地检查清单

短期行动

Jason 建议把 emergent/agent 研究拆成短期行动：4 周内完成 data review + prompt stress testing；8 周内搭建 evaluation dashboard；12 周内形成 incident grade-book。

时间	任务
Week 1-4	Finish data review + set prompt stress test suite
Week 4-8	Launch evaluation dashboard + drift alerts
Week 8-12	Establish incident grade-book + governance review

短期行动计划。

短期行动的关键提醒

每次 prompt change 都要关联 version + drift metric
Drift alert 触发后立即记录 incident grade-book
让 evaluator 跟 data engineer 同框 review 结果，增加 cross-check

长期研究议程

Hyung Won 鼓励团队关注 “reduce inductive bias”、“scale law mapping”、“attention interpretability” 三件长期项目。这些研究最好以 quarterly thesis 形式展开，每个项目都放在 README/notes 中。

长期议程示例

Project Alpha：实验不同注意力结构，验证是否能保持 performance 且 reduce bias
Project Beta：把 scale law 曲线映射到 optimizer setting，为 large-scale training 预先设定 lr schedule
Project Gamma：构建 attention interpretability demo，帮助 evaluator 解释 emergent jump

本章小结

行动清单把讲座中的 abstract idea 变成 timeline + deliverable：短期行动确保 governance quickly, 长期项目则把 insights 变成 publishable knowledge。

Emergent 能力记分板

任务追踪面板

建立 emergent capability scoreboard，可视化多个任务的 emergent jump。以下表列出了三个常见任务及其触发条件：

任务	Trigger condition	Metrics to watch
数学推理	CoT prompt + longer tokens	Step accuracy + self-consistency
代码生成	Multi-language prompt + doc search	Syntax error rate + hallucination
对话记忆	Extended context window	Memory retention + token budget

Emergent 能力的任务追踪。

Scoreboard 的操作说明

每个任务用不同颜色的 line 探测 emergent jump
如果 multi-task jump 同时出现，说明 architecture/data 组合成功
失真时立刻回到 prompt log + data cadence

指标联动与 drift analysis

Emergent score 需要同时监听 multiple metrics：accuracy/self-consistency/hallucination/token budget。Jason 展示的 drift analysis 由 4 条曲线组成，可以快速定位 drift origin。

Drift analysis 曲线

Accuracy curve：观测 emergent jump
Self-consistency：衡量 prompt 稳定性
Hallucination rate：看是否 sacrifice factuality
Token budget：控制 compute overhead

本章小结

把 emergent events 变成 scoreboard + drift analysis，可以把“感觉似乎好的”现象具体化：每次 jump 都要经过 panel review，结合 multiple metrics 判断是否值得推向 production。

Observation daybook 记录

关键事件记录模板

Hyung Won 分享的 daybook 模板包含：trigger description、metrics snapshot、guardrail update、next action。每次 emergent drift 或 safety incident 都需填写本模板并归档。

字段	内容
Trigger	self-consistency drop / hallucination spike
Metrics	accuracy, hallucination rate, token budget snapshot
Guardrail update	prompt change / tool constraint
Next action	retrain / rollback / new drill

Observation daybook 的模板字段。

事件记录的价值

把每个 incident 写进 daybook，有助于 periodic review：团队可以在 retro 会议上快速复盘 trigger → guardrail → action 的闭环，避免重复犯错。

Lessons learned 速查

建立 lessons.md 保存 emergent drift 的教训；Jason 推荐每次 incident 后写一段 “why/what/next”，并按 tag 分类（data/prompt/tool）。

Lessons learned 模板

Why：是什么 trigger 让 metrics 异常
What：我们做了什么（prompt rollback / data filter）
Next：下次如何避免（security guard / prompt stress testing）

本章小结

记录 daybook + lesson，把 emergent/agent 的观察经过 formalization，便于 incident review 也便于新成员快速 catch up。

团队承诺与治理约定

治理角色 RACI

建议把 emergent/agent 管理工作分派到 RACI：谁负责 prompt log（Responsible）、谁支持 evaluation dashboard（Accountable）、谁提供 consult（Consulted）、谁需要 informed（Informed）。

角色	主要职责
Prompt engineer	维护 prompt versions + stress testing reports
Model engineer	保持 training log + attention monitor
Evaluator	监控 hallucination + accuracy drift
Data engineer	管理 dedup log + dataset snapshot

RACI Framework 的简版分工。

治理约定建议

每次 incident 后 24 小时内通知 governance channel
Prompt log 需要 version/hash + metric diff + guardrail change
对所有 high-risk tool call 做 human-in-the-loop audit

本章小结

团队承诺让 governance 有人负责、有流程、有记录，而不是某个人“记在脑子里”。

总结与延伸

维度	核心复盘
数据/能力	Emergent 需要 multi-metric evidence + manual data review
Prompt	Instruction tuning+CoT+dashboard 组成 governance loop
架构/评估	减少归纳偏置，搭配 SLI/SLO 驱动的 evaluation pipeline

Lecture 27 三条主线回顾。

维度	风险与控制
Hallucination	taxonomy + prompt stress testing + knowledge graph check
Deployment	incident grade-book + tool stack + prompt/drift observability
Reproducibility	prompt log + incident artifact + team knowledge handoff

风险与治理的补充视角。

拓展阅读

Wei et al., “Emergent Abilities of Large Language Models,” 2022
Sutton, “The Bitter Lesson,” 2019
Chung et al., “Scaling Instruction-Finetuned Language Models” (Flan-T5), 2022
Wei et al., “Chain-of-thought Prompting Elicits Reasoning in Large Language Models,” 2022
Lee et al., “ReAct: Synergizing Reasoning and Acting in Language Models,” 2022
Brown et al., “Language Models are Few-Shot Learners,” 2020