[CS25] Intuitions on LMs + History of Architectures — Jason Wei + Hyung Won Chung, OpenAI
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于 Jason Wei 与 Hyung Won Chung 在 Stanford CS25 Transformers United 公开讲座整理 |
| 来源 | Stanford CS25: Transformers United |
| 日期 | 2024年04月26日 |
![[CS25] Intuitions on LMs + History of Architectures — Jason Wei + Hyung Won Chung, OpenAI](cover.jpg)
引言:讲座定位与结构化复现
课程概览
Lecture 27 由 Jason Wei 与 Hyung Won Chung 联合讲解:前者围绕“为什么语言模型表现如此出色”分享了大量来自预训练数据与 prompt 的直觉,后者围绕架构演化、归纳偏置与 “苦涩的教训” 提供了数学与工程视角。两位讲者在 Q&A 环节共同强调:LLM 的力量源于简单方法 + scale + 数据治理。
素材与结构策略

来源:封面来自 Stanford CS25 公开 slides,后续如有其他 slide 图像请放在本目录
slides-images/并保持命名一致。
复现素材原则
优先引用讲者提供的 slides 与关键截图;如无可用图片,则通过表格、流程图与 Box 结构重现讲述顺序,并明确列出时间段与关键词,方便读者在原视频中对照。
讲座时间线
| 时间段 | 内容概览 | |
|---|---|---|
| 00:00–00:09 | 对 Jason 的介绍、LLM 的 emergent ideas、数据直觉 | |
| 00:09–00:24 | Instruction tuning、Chain-of-Thought 与 prompt metrics | |
| 00:24–00:38 | Hyung Won 讲述 Bitter Lesson、架构演化与归纳偏置争论 | |
| 00:38–00:55 | 自回归/decoder-only 的扩展、训练目标对比 | |
| 00:55–01:02 | Q\ | A、实践建议、治理与复现 checklist |
时间线的使用方式
把时间段和主题写入笔记有助于复盘:每次看视频只需跳到本表对应区间即可;若需要深入分析某一个主题,可结合 timecode+table 快速定位 slide/quote。
本章小结
本节说明本讲的双轨策略:Jason 负责 data/prompt/performance 的直觉,Hyung Won 则把架构与归纳偏置放到长期 scaling 的历史脉络中;整个笔记按教学逻辑重新拆解,方便后续复现与治理。
数据直觉与 emergent 能力
理解数据即理解模型
Jason Wei 强调:LLM 的能力不是来自某个新架构,而是数据里的隐式 “任务”。他亲手翻阅训练语料,发现其中含有翻译、数学解题、代码片段、对话、百科等多种模式;语言建模的目标驱使模型为每种模式学会不同的技能。
语言建模的多任务隐藏层
LLM 的下一个 token 预测需要整合语法、语义、常识推理和 task formatting,因此它从数据中隐式吸收了 “翻译、推理、编程、对话” 等任务。如果数据缺失,模型在对应能力上会显著退化。
Manual data review 与 emergent cues
Jason 详细介绍他在训练前走一遍数据的习惯:把训练语料分成 chunk、人工审阅特殊 tokens、提取 multi-turn 交互。通过这样的工作,他归纳出几点 emergent cue,鼓励团队把相同的流程复制到自己的项目。
人工数据审查的五个步骤
- 抽样多语言文本、文档、对话
- 统计 token frequency 与 rare token 列表
- 识别长链条的推理与步骤式文本
- 标注 prompt-like 标题(“Step 1/2”)与答案分隔符
- 用轻量脚本生成 attention map(或 heuristics)以发现分布 shift
Emergent phenomena 的 evidence stack
Lecture 27 重复出现这个核心句:“Emergence is real when multiple evidence lines all shift at once.” Jason 建议同时观察(1)loss/perplexity 曲线、(2)prompt trace(是否需要 CoT)、(3)attention entropy 以及(4)抽样输出的 stability;只有多个维度协同跳跃时,才能断言一个能力是真正 emergent。
误判 emergent 的三个陷阱
- 只看 accuracy/精确匹配;可能是 metrics 过于敏感
- 单次 trial 的涨幅,很可能是 noise
- 没有控制 prompt/system message 的时候,无法复现
多模态 prompt shift
Hyung Won 补充:当把图像、音频转成 token 时,同样可以看到涌现;只是引入新的 attention bias(如 per-modality token embeddings)后,需要稳定 prompt shift(“先识图再问”)。
多模态 emergent 的提示实践
- 用不同 token prefix(“[image]”, “[audio]”) 将模态区分开
- 设定约束(“先描述再回答”)减少 hallucination
- 观察 attention heatmap 是否对齐到 vision token,而不是仅靠 text
数据治理与规范化
Jason 强调 emergent 研究必须先把 data pipeline 定义清楚:每个 dataset 都要记录采集 source、split 逻辑、dedup 策略与 sensitive content filter,以便后续复现或提供 compliance report。
| 字段 | 描述 |
|---|---|
| Source | 抽样 website / corpus / internal doc |
| Split | train/validate/test 的 token 分割方式 |
| Dedup | ngram overlap 或 semantic hash 过滤阈值 |
| Safety | 黑名单、PII scrub 策略 |
数据治理的价值
在 emergent 现象触发后,团队需要回溯 “是哪批数据” 使模型跳变;如果没有详细治理记录,就无法判定是否引入有问题的样本。
数据可观测性与工具
为了让 emergent 现象可追溯,Jason 建议把数据采样、attention map 和 prompt trace 交给统一平台。下表展示了一个轻量级数据观测 pipeline:
| 组件 | 描述 |
|---|---|
| Sampler | 定期从数据 lake 中抽样多模态 chunk(text/image/code) |
| Instrumenter | 记录 attention map、CoT trace、token distribution |
| Dashboard | 显示 loss/perplexity + drift metric,支持 drill-down |
数据仪表盘的价值
把 instrumentation + dashboard 链接到 prompt log,可以在 emergent drift 发生时立即 trace 到具体数据 batch,而不是仅依赖后验分析。
本章小结
本节将 emergent ability 的经验归结为 “写清数据+prompt+attention+metrics” 四要素;如果只追求参数量而不排查上述维度,就难以复现 Jason 所描述的现象。
提示工程与 reasoning orchestration
Instruction tuning 是格式化而非新能力
Jason 把 Instruction Tuning 描述为 “让模型把已有知识用新的纸张打印出来”。以 FLAN/PaLM 为例,单纯在多任务指令上 fine-tune,模型在零样本任务上的表现即可立刻提升;说明模型底层已经具备能力,只需要 prompt 来调度。
Instruction tuning 的常见误区
- 误以为 tuning 训练了新能力,其实只是在改变 sampling distribution
- 过度依赖 few-shot 示例,导致 context window 被 prompt 占满
- 忽略 prompt drift,改了 prompt 但不记录版本,就看不到 performance 变化
Chain-of-Thought 与 Self-Consistency
CoT 的本质是 “prompt 里先给出思路,再让模型重演”。Self-Consistency 进一步通过采样多个 CoT 路径并投票来减少偶发错误。
| 方法 | 核心机制 | 典型收益 |
|---|---|---|
| Chain-of-Thought | 给出 step-by-step | 解题准确率 +15% |
| Self-Consistency | 多路径 majority vote | 抑制 single path failure |
| Least-to-Most | 分层 prompts | 适合长链任务 |
提示工程的治理建议
把每次 prompt/CoT pattern 写进 prompt log(格式:Prompt ID、Role description、Examples、Sampling parameters、Metric diffs),并与 evaluation dashboard 里的 drift metric 关联;一旦 accuracy 指标下降,可以凭 log 快速回滚。
Prompt 仪表盘
Jason 进一步建议在 prompt log 上挂上 self_consistency_score、hallucination_rate、token_budget 和 sampling_temperature 等字段,方便分析 prompt drift。
| 字段 | 说明 |
|---|---|
| Prompt ID | Git tag/hash,便于复现 |
| Role + Examples | CoT 模板与 role-play |
| Sampling params | temperature / top_p / candidate count |
| Metric diffs | 前后 accuracy/self-consistency 对比 |
Prompt Stress Testing
讲者强调:每次 prompt 改动都应经历 “stress testing” —— 选取 hardest-case prompts、insert adversarial tokens、vary temperature/backoff 以观察 performance drop。对于 prompt drift,应提前设定 rollback plan。
Prompt stress testing checklist
- Run CoT prompts under different seeds/temperature; check self-consistency variance
- Inject adversarial tokens or hallucination triggers; confirm no uncontrolled behavior
- Monitor token budget + latency to prevent prompt size blow-up
Prompt regression guardrail
把 stress testing 的结果记录在 prompt log,对比前后 accuracy/self-consistency;若发现 degradation > threshold,即刻回滚到先前的 prompt 版本。
本章小结
Prompt 不是一次性输入,而是人与模型之间的 orchestration:只有把 instruction tuning、CoT、dashboard 与 metric drift 结合,才能把 emergent ability 稳固下来。
架构演化与归纳偏置
The Bitter Lesson 与计算优先
Hyung Won 引用了 Sutton 的 “The Bitter Lesson”,说明 “用计算而不是手工归纳” 是达成长期 scaling 的唯一路径。工程师需要问自己:“我正在往模型里注入多少归纳偏置?是否可以通过 scale + data + compute 达成同样效果?”
Sutton 的三条启示
- 人类知识在有限 compute 下有效,但不具备 scaling
- 更泛化的模型往往是 compute-intensive 而非 architecture-heavy
- 归纳偏置想增加但也要有退出策略(revert to simpler architecture when compute grows)
从 encoder-decoder 到 decoder-only
Hyung Won 沿着历史讲述了 Encoder-Decoder(2017)、BERT(2018)、GPT(2018+)的演化。Decoder-only 架构的核心好处在于 KV cache,可让多轮对话快速复用之前的 key/value,从而拉低推理 FLOPs。
双向注意力的伸缩问题
BERT 等编码器架构需要重新计算全部 attention,因此在长 context 中开销爆炸;decoder-only 通过因果 mask + KV cache,令训练和推理都具备线性扩展性。
训练目标的变化
| 目标 | 架构 | 主要假设 |
|---|---|---|
| Masked LM | Encoder | 需要双向上下文 |
| Prefix LM | Encoder-Decoder | encoded prefix + causal decode |
| Autoregressive LM | Decoder-only | 只看过去,易 scale |
Scale Law 与优化器选择
Hyung Won 指出,scale law 表示 loss 与 compute 之间呈幂律关系,因此进入 scaling regime 时必须重新调优 optimizer + lr schedule。典型流程是:先用 AdamW + cosine decay 进行 warmup,再根据 attention scale 观察是否需要进一步减小 lr 或增加 batch。
Scale law 经验值
- loss \(\approx\) constant \(\times\) \(\mathrm{compute}^{-0.05}\),compute = params \(\times\) tokens \(\times\) 6
- batch 太小无法进入 regime,需 gradient accumulation
- 监控 attention scale,有助于判断是否需要 LR warmup/stretch
优化器与 warmup 策略
- AdamW + cosine decay 是 transformer scaling 的常用组合
- warmup 阶段要缓慢把 lr 提升到 target,避免 early loss 爆炸
- 遵循 linear scaling rule:batch \(\times\) lr \(\approx\) 常数,便于增加 batch 时同步调参
归纳偏置的判断准则
如果一种结构需要 “人为指定 how to attend”,可能正在引入归纳偏置;若它只是提供更少的假设(如 decoder-only),就更容易 scale。
本章小结
架构演化是一条 “减少人为假设 + 增加 compute” 的路径:讲者用实证与经验告诉我们,在面向 scaling 的时候,最可靠的策略是先移除结构,再投放计算。
评估、监控与治理
多维度评估矩阵
为了避免 emergent drift,Jason 设计了一个评估矩阵:准确率/任务表现、prompt drift、hallucination rate、token budget、CoT fidelity 等需要同时追踪。
| 维度 | 指标举例 | 工具 |
|---|---|---|
| 准确率 | BLEU/F1/custom | Eval harness |
| 鲁棒性 | Adversarial prompt | adversarial suite |
| Hallucination | Fabrication rate | human annotator + knowledge graph check |
| Prompt drift | Self-consistency drop | versioned dashboard |
评估数据管道与报警
讲者建议把评估 pipeline 分成 instrumentation、aggregation、alerting 三段:先采集 prompt+tool调用+attention snapshot,再把 metrics 送入 dashboard,最后设定阈值 triggers 及时通知。
评估 data pipeline 的三步
- Instrumentation:每次 infer 记录 prompt、tool、attention map
- Aggregation:定期刷新 metrics 看是否 drift,并与 compute budget 对齐
- Alerting:Accuracy or hallucination 超阈值时发起 rollback
Hallucination taxonomy
为了治理 hallucination,Jason 建议把 hallucination 分为 three classes:fact-unsupported、failure to recall context、and prompt-induced hallucination。每种类型都需要不同的反馈 loop,例如 fact-unsupported 需要 knowledge graph check,prompt-induced 需要 prompt stress testing。
Hallucination 分类与 대응
- fact-unsupported:vs knowledge graph + web verification
- context loss:增加 context window & caching
- prompt-induced:锁定 role + CoT template
本章小结
评估不是单一指标,而是可审计、可回溯的闭环;数据 pipeline + dashboard + alerting 才能在 emergent world 里保持可控。
部署、复现与团队实践
部署准备 checklist
Jason 和 Hyung Won 共同强调:部署前必须校验 prompt stability、token budget、fallback 策略与监控 hook。
| 项目 | 核心检查 | 状态 |
|---|---|---|
| Prompt 稳定性 | 不同输入的 Self-consistency | 已就绪 |
| Token 预算 | 每次请求 FLOPs 对齐 compute cap | 已就绪 |
| Fallback | API / 缓存降级方案 | 待完善 |
| Monitoring hook | latency/loss/attention | 已就绪 |
SLI/SLO 与成本控制
SLI/SLO 参考
- Latency SLO:99% 请求 < 1s
- Accuracy SLI:Self-Consistency+CoT 精度达标
- Token budget:每月消耗不超预留
Incident Response 与 grade-book
Hyung Won 提到:治理 emergent drift 需要 “incident grade-book”,记录 Alarm、Root cause、Resolution。每次 incident 都要归档 prompt log、evaluation snapshot 与 fix script,避免重复 error。
Incident grade-book 示例字段
- Alarm trigger:self-consistency drop / hallucination ratio spike
- Root cause:prompt drift / data shift / compute overload
- Resolution:rollback prompt / retrain / add guardrail
Tooling stack 与 observability
部署 pipeline 应覆盖 prompt log、attention heatmap、latency/failure metrics,再加上 tool call trace(doc search、python 执行)。
| 层级 | 工具/实践 |
|---|---|
| Prompt | Prompt log + versioned dashboard |
| Inference | Monitoring hook + latency/failure metrics |
| Tooling | API call trace + sandbox constraints |
| Observability | Attention/Config snapshot + drift alert |
复现 pipeline 与知识管理
复现实践的沉淀机制
- 把 prompt log + config + sample output 写入
notes/目录 - 用
git tag记录 stable prompt/config,并排期 review - 维护
slides-images/与frames/,让团队新人快速上手
智能体典型案例
讲者以“自动研究助理”为例:输入需求后拆成子任务,依次调用 doc search、python executor、web fetch,再由 human review + self-consistency 检查结果,完成报告。每个工具调用前插入 reasoning trace 以防 hallucination。
| 阶段 | 人机协作 |
|---|---|
| 需求理解 | Prompt 拆分任务、assign role |
| 工具调用 | Doc search + code executor + web search |
| 结果验证 | Human review + self-consistency votes |
团队角色与知识共享
部署和复现需要跨角色协作:Jason 指出一个典型团队包括 data engineer、model engineer、prompt engineer 与 evaluator。每次 run 都必须写入 prompt log, attention snapshot, grid search summary,以便后续 replicate。
团队协作的 artifact
- data engineer:dedup log、tokenizer config
- model engineer:training log、attention heatmap、scale law plots
- prompt engineer:prompt versions、CoT templates、stress testing reports
- evaluator:hallucination annotation + drift alert summary
本章小结
部署与复现不是补充,而是主线:从 SLI/SLO 到 prompt log 再到自动化案例,每一步都要写实并可追踪。
案例驱动演练
Emergent detection drill
设计 emergent drill 时要把 “baseline metric + prompt guardrail” 视为 control group,再定义 “emergent metric”(如 multi-step accuracy × CoT fidelity)作为 treatment。Jason 建议每周开展一次 drill,把 emergent jump、hallucination sample 以及 prompt drift log 一起分析。
| 组件 | 操作 |
|---|---|
| Control metrics | loss/perplexity + token budget |
| Treatment metric | multi-step accuracy × self-consistency |
| Drill cadence | 每周一次,包含 prompt log + attention snapshot |
Drill 的目的
通过 structured drill 快速判断 emergence 是否真实:若 multi-step accuracy 与 CoT fidelity 同步提升且 hallucination rate 不升高,则可认为 emergent 已经稳定。
Agent safety drill
Hyung Won 建议把 agent safety 训练成 “prompt + tool + fallbacks” 的组合:每次施加 adversarial instruction(例如 delete all files),观察 guardrail 是否及时触发;若没有,必须更新 reasoning trace 的 stop tokens。
安全演练清单
- 针对 high-risk commands 触发 multi-factor confirmation
- 检查 tool call 是否在 sandbox 执行,防止 data leak
- 记录 reasoning trace 和 human review log 以备审计
本章小结
案例演练让 emergent ability 与 agent safety 不再是 abstract theory,而是每周 checklist;通过 structured drill,团队可以把 observed drift 及时转化为 governance action。
Q&A 与实践提醒
现场问答精华
在 Q&A 环节,Jason 重申 “emergent ability 需要 multi-metric evidence”,Hyung Won 回答 “reduce structure, ramp compute”. 他们还强调 prompt log 要包含 role、CoT template、version hash、mixture of few-shot + zero-shot 化的配比。
实践提醒
- 记录 prompt version 及 sampling 时的 seed/temperature
- 每次 major drift 都要有 artifact(prompt + dataset + attention map)
- 让 evaluator 直接在 dashboard 点出 drift case 并发起 alert
课堂 takeaways
讲者最后建议:把 emergent/agent research 做成 “observation → instrumentation → governance” 的闭环,并让整支 team 每周 review 一次 incident grade-book。
Takeaway checklist
- Oberserve emergent jump across metrics before declaring success
- Instrument prompt/data/code artifacts with per-run metadata
- Govern via prompt log, incident grade-book, evaluation dashboard
本章小结
Q&A 的重点在于把上文提到的 artifacts 串成闭环:观察 → 记录 → 治理,让 emergent/agent 研究能在可控范围内不断迭代。
术语与指标速查
关键术语
| 术语 | 释义 |
|---|---|
| CoT | Chain-of-thought,向模型展示完整推理步骤 |
| Self-consistency | 多路径采样后取众数,减少偶发错误 |
| Governance loop | Prompt log + dashboard + incident grade-book |
| KV cache | Key/value 缓存,用于 decoder-only 多轮对话加速 |
常用指标速查
| 指标 | 用途 |
|---|---|
| Self-consistency score | 评估 prompt/draft 是否一致 |
| Hallucination rate | 记录 fabrication 事件占比 |
| Token budget | 每次请求的 token/compute 限额 |
| Attention entropy | 判断模型是否跳到不同模式 |
本章小结
把术语与指标写下来,便于新成员快速理解讲座用语,也可以在 incident review 中快速定位 key term。
行动与落地检查清单
短期行动
Jason 建议把 emergent/agent 研究拆成短期行动:4 周内完成 data review + prompt stress testing;8 周内搭建 evaluation dashboard;12 周内形成 incident grade-book。
| 时间 | 任务 |
|---|---|
| Week 1-4 | Finish data review + set prompt stress test suite |
| Week 4-8 | Launch evaluation dashboard + drift alerts |
| Week 8-12 | Establish incident grade-book + governance review |
短期行动的关键提醒
- 每次 prompt change 都要关联 version + drift metric
- Drift alert 触发后立即记录
incident grade-book - 让 evaluator 跟 data engineer 同框 review 结果,增加 cross-check
长期研究议程
Hyung Won 鼓励团队关注 “reduce inductive bias”、“scale law mapping”、“attention interpretability” 三件长期项目。这些研究最好以 quarterly thesis 形式展开,每个项目都放在 README/notes 中。
长期议程示例
- Project Alpha:实验不同注意力结构,验证是否能保持 performance 且 reduce bias
- Project Beta:把 scale law 曲线映射到 optimizer setting,为 large-scale training 预先设定 lr schedule
- Project Gamma:构建 attention interpretability demo,帮助 evaluator 解释 emergent jump
本章小结
行动清单把讲座中的 abstract idea 变成 timeline + deliverable:短期行动确保 governance quickly, 长期项目则把 insights 变成 publishable knowledge。
Emergent 能力记分板
任务追踪面板
建立 emergent capability scoreboard,可视化多个任务的 emergent jump。以下表列出了三个常见任务及其触发条件:
| 任务 | Trigger condition | Metrics to watch |
|---|---|---|
| 数学推理 | CoT prompt + longer tokens | Step accuracy + self-consistency |
| 代码生成 | Multi-language prompt + doc search | Syntax error rate + hallucination |
| 对话记忆 | Extended context window | Memory retention + token budget |
Scoreboard 的操作说明
- 每个任务用不同颜色的 line 探测 emergent jump
- 如果 multi-task jump 同时出现,说明 architecture/data 组合成功
- 失真时立刻回到 prompt log + data cadence
指标联动与 drift analysis
Emergent score 需要同时监听 multiple metrics:accuracy/self-consistency/hallucination/token budget。Jason 展示的 drift analysis 由 4 条曲线组成,可以快速定位 drift origin。
Drift analysis 曲线
- Accuracy curve:观测 emergent jump
- Self-consistency:衡量 prompt 稳定性
- Hallucination rate:看是否 sacrifice factuality
- Token budget:控制 compute overhead
本章小结
把 emergent events 变成 scoreboard + drift analysis,可以把“感觉似乎好的”现象具体化:每次 jump 都要经过 panel review,结合 multiple metrics 判断是否值得推向 production。
Observation daybook 记录
关键事件记录模板
Hyung Won 分享的 daybook 模板包含:trigger description、metrics snapshot、guardrail update、next action。每次 emergent drift 或 safety incident 都需填写本模板并归档。
| 字段 | 内容 |
|---|---|
| Trigger | self-consistency drop / hallucination spike |
| Metrics | accuracy, hallucination rate, token budget snapshot |
| Guardrail update | prompt change / tool constraint |
| Next action | retrain / rollback / new drill |
事件记录的价值
把每个 incident 写进 daybook,有助于 periodic review:团队可以在 retro 会议上快速复盘 trigger → guardrail → action 的闭环,避免重复犯错。
Lessons learned 速查
建立 lessons.md 保存 emergent drift 的教训;Jason 推荐每次 incident 后写一段 “why/what/next”,并按 tag 分类(data/prompt/tool)。
Lessons learned 模板
- Why:是什么 trigger 让 metrics 异常
- What:我们做了什么(prompt rollback / data filter)
- Next:下次如何避免(security guard / prompt stress testing)
本章小结
记录 daybook + lesson,把 emergent/agent 的观察经过 formalization,便于 incident review 也便于新成员快速 catch up。
团队承诺与治理约定
治理角色 RACI
建议把 emergent/agent 管理工作分派到 RACI:谁负责 prompt log(Responsible)、谁支持 evaluation dashboard(Accountable)、谁提供 consult(Consulted)、谁需要 informed(Informed)。
| 角色 | 主要职责 |
|---|---|
| Prompt engineer | 维护 prompt versions + stress testing reports |
| Model engineer | 保持 training log + attention monitor |
| Evaluator | 监控 hallucination + accuracy drift |
| Data engineer | 管理 dedup log + dataset snapshot |
治理约定建议
- 每次 incident 后 24 小时内通知 governance channel
- Prompt log 需要
version/hash + metric diff + guardrail change - 对所有 high-risk tool call 做 human-in-the-loop audit
本章小结
团队承诺让 governance 有人负责、有流程、有记录,而不是某个人“记在脑子里”。
总结与延伸
| 维度 | 核心复盘 |
|---|---|
| 数据/能力 | Emergent 需要 multi-metric evidence + manual data review |
| Prompt | Instruction tuning+CoT+dashboard 组成 governance loop |
| 架构/评估 | 减少归纳偏置,搭配 SLI/SLO 驱动的 evaluation pipeline |
| 维度 | 风险与控制 |
|---|---|
| Hallucination | taxonomy + prompt stress testing + knowledge graph check |
| Deployment | incident grade-book + tool stack + prompt/drift observability |
| Reproducibility | prompt log + incident artifact + team knowledge handoff |
拓展阅读
- Wei et al., “Emergent Abilities of Large Language Models,” 2022
- Sutton, “The Bitter Lesson,” 2019
- Chung et al., “Scaling Instruction-Finetuned Language Models” (Flan-T5), 2022
- Wei et al., “Chain-of-thought Prompting Elicits Reasoning in Large Language Models,” 2022
- Lee et al., “ReAct: Synergizing Reasoning and Acting in Language Models,” 2022
- Brown et al., “Language Models are Few-Shot Learners,” 2020