Ep117 Zrvnoyypawq

导读：为什么从论文进入 AI 世界

本节先建立这期节目的学习姿势。谢青池不是以研究员身份讲论文，而是以产品负责人、长期自学者和技术边界观察者的身份，把一年多读 200 多篇论文的路径开源出来。这个视角很有价值：它不追求把每篇论文讲成数学课，而是追问每篇论文改变了什么边界、打开了什么范式、后来被谁继承、又怎样变成产品和产业的基础。

这期的 36 篇论文可以压缩成四条主线。第一是模型范式：从 GPU、AlexNet、Attention、Transformer 到 MoE、CoT、LoRA、ReAct 和 Bitter Lesson。第二是 Infra 与数据：ZeRO（Zero Redundancy Optimizer，用优化器状态、梯度和参数分片减少训练冗余）、Scaling Law、Chinchilla、LAION、RefinedWeb、MegaScale 解释模型为什么能被放大。第三是语言模型：Word2Vec、Google Translate、GPT、BERT、GPT-3、InstructGPT、Tulu 3 解释 LLM 怎样成为今天的入口。第四是多模态：DeepVideo、双流网络、GAN、Diffusion、ViT、CLIP、Stable Diffusion、DiT 解释视觉和生成模型怎样汇入 Transformer 时代。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{four-part-history-map.png}
\caption{36 篇论文的四条主线：模型范式、Infra/数据、语言模型和多模态共同构成 AI 变迁史。自制概念图，依据视频描述和 00:19:35--03:56:38 对谈内容整理。}
\end{figure}

读图：这不是论文清单，而是边界地图

模型范式决定“什么结构可以学”；Infra 和数据决定“能放大到什么规模”；语言模型决定“人如何用自然语言调用智能”；多模态决定“模型如何进入视觉、视频和生成世界”。四条线互相咬合，才形成今天的 AI 产业。

本期核心命题

读论文的价值不是背诵论文标题，而是直接接触问题源头。真正读懂一篇关键论文，等于知道当时的研究者面对什么边界、为什么选择这个解法、后来哪一部分被时代放大、哪一部分被硬件或数据淘汰。

用 AI 学 AI：论文阅读闭环

上一段解释了为什么读论文，本节看怎样把论文读下去。谢青池讲到，自己最初遇到的门槛包括数学基础、英文论文、术语多义和缺少路线图。解决办法不是硬扛，而是用 AI 做翻译、解释、追问和整理，把论文从孤立 PDF 变成可讨论、可复盘、可分享的知识节点。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{paper-reading-loop.png}
\caption{用 AI 学 AI 的论文阅读闭环：翻译、提问、路书、复盘和分享让论文不再只是 PDF。自制概念图，依据 00:01:30--00:19:35 对谈内容整理。}
\end{figure}

读图：AI 不是替你读，而是帮你搭脚手架

AI 可以帮助跨过英文、术语和背景知识门槛，但不能替代问题意识。好的读法是先找到问题，再让 AI 帮你翻译、解释、对比和反问，最后把论文放回历史路线图中。

本章小结

EP117 的真正主题是“怎样进入技术世界”。36 篇论文只是载体，更深的训练是建立问题地图：知道哪些概念长期不变，哪些边界正在变化，哪些能力来自模型，哪些能力来自 Infra、数据和硬件。

模型范式变迁：从 GPU 到 Agent

本章覆盖第一条主线：模型范式。故事从 1999 年第一颗 GPU 讲起，不是因为 GPU 是论文，而是因为它改变了可计算边界。Brook、CUDA、AlexNet、ResNet、Transformer 等工作，都说明一个朴素事实：算法范式能否成为时代主线，常常取决于它有没有抱住硬件和数据的大腿。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{model-paradigm-timeline.png}
\caption{模型范式时间线：GPU、CNN、Attention、Transformer、MoE 与 Agent 逐步接力。自制概念图，依据 00:19:35--01:52:58 对谈内容整理。}
\end{figure}

读图：范式不是突然出现的

AlexNet 之前有 GPU 和图像数据，Transformer 之前有 seq2seq、Attention、残差网络和并行计算，Agent 之前有 CoT、工具调用和 ReAct。范式变化常常是许多旧积累在某个硬件/数据窗口里突然连起来。

GPU、Brook、AlexNet 与硬件彩票

本节先看硬件如何改变模型命运。Brook for GPU 代表早期通用 GPU 计算探索，AlexNet 则在 2012 年用 GPU 和深度卷积网络击穿 ImageNet。讲者反复强调“硬件彩票”：一个方法如果正好适合主流硬件，训练速度、工程生态和研究投入都会被放大；反之，思想可能正确，但难以成为时代主线。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{hardware-lottery.png}
\caption{硬件彩票：能抱住主流硬件的架构会获得长期复利。自制概念图，依据 00:19:35--00:30:00 与 03:56:38--04:03:00 对谈内容整理。}
\end{figure}

读图：为什么 AlexNet 是分界线

AlexNet 不只是“用了 CNN”，还证明了深度学习、GPU、数据集和工程技巧可以组合成压倒性优势。它击败的是手工特征主导的范式，也预示了 Bitter Lesson：当算力继续增长，通用学习方法会反复压过人工设计。

seq2seq、Attention 与 Transformer

前面讲图像，本节转向序列。seq2seq 让模型把输入序列压缩成状态再解码，Attention 则允许解码时直接关注输入的不同位置，缓解长句和上下文丢失问题。Transformer 更进一步，用 self-attention 和并行计算替代 RNN 的顺序瓶颈，让序列内部 token 之间可以直接建模关系。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{transformer-origin-ladder.png}
\caption{从序列建模到 Transformer：seq2seq、Attention、残差与并行计算共同铺路。自制概念图，依据 00:34:02--01:05:24 对谈内容整理。}
\end{figure}

Attention 的核心直觉

Attention 允许模型在处理当前位置时直接计算它和其他位置的相关关系。相比 RNN 依赖一步步传递隐藏状态，Attention 缩短了信息路径；相比卷积需要多层扩大感受野，self-attention 可以在一层内看到整个上下文窗口。

ResNet、蒸馏、AlphaGo Zero 与 MoE

前面讲的是架构如何处理图像和序列，本节把范围扩展到训练技巧、能力迁移和计算经济学。模型范式不仅是结构，还包括训练和能力迁移。ResNet 用残差连接解决更深网络训练难题；蒸馏提出大模型知识可以被小模型学习；AlphaGo Zero 展示强化学习和自我对弈可以绕开人类棋谱；现代 MoE 则通过专家路由降低激活成本，让大模型容量和计算成本不再完全线性绑定。

术语消化：模型范式节点

节点	解决的问题	后续影响
ResNet	深层网络退化和训练困难	残差成为深度网络通用构件，也进入 Transformer。
Distillation	大模型能力如何迁移到小模型	支撑端侧部署、学生模型和模型压缩。
AlphaGo Zero	不依赖人类数据也能学习策略	强化学习、自我博弈和 test-time search 的思想被反复引用。
MoE	增加参数容量但控制每次计算量	DeepSeek 等模型把专家路由变成现代 LLM 的重要路线。

CoT、LoRA、ReAct 与 Agent 化

本节从基础模型进入使用方式。CoT 让大家意识到模型输入会影响输出，推动 prompt engineering 和 context engineering；LoRA 让低成本参数适配变得普遍；ReAct 把 reasoning 和 acting 放在同一个循环中，为 Agent 从理论走向工具调用奠基。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{adaptation-agent-stack.png}
\caption{从能力到行动的栈：蒸馏、LoRA、CoT 和 ReAct 把模型推向可用系统。自制概念图，依据 01:26:40--01:37:10 对谈内容整理。}
\end{figure}

读图：模型能力需要被“引出”和“接住”

蒸馏和 LoRA 解决能力迁移与适配成本，CoT 让模型显式展开推理，ReAct 让推理连接外部工具。Agent 并不是凭空出现，而是这些机制逐渐把模型推向行动闭环。

Bitter Lesson：长期主义的冷水

前面所有节点都在暗示一个规律，本节用 The Bitter Lesson 把它说透。它的观点是，长期看，依赖通用计算和大规模搜索/学习的方法，往往胜过手工编码知识的方法。讲者强调，这不是说手工特征永远无用，而是说手工结构常常在某个算力量级内有效；一旦算力和数据跨过阈值，通用学习方法会重新占优。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{bitter-lesson-map.png}
\caption{Bitter Lesson：长期看，通用计算与规模化学习会反复压过手工结构。自制概念图，依据 01:45:00--01:52:40 对谈内容整理。}
\end{figure}

Bitter Lesson 不是“不要做结构设计”

结构设计仍然重要，尤其在数据少、算力弱、目标明确时。但如果一个结构不能随算力、数据和硬件生态一起 scale，它就可能在下一轮范式迁移中被通用方法压过。

本章小结

模型范式线告诉我们：AI 进步不是单篇论文胜利，而是硬件、数据、训练方法、架构和使用方式共同对齐。GPU 让深度学习可行，Attention 让长依赖可学，Transformer 抱住并行硬件，CoT/ReAct 则把模型推向行动。

Infra 与数据：规模化学习的底座

上一章解释“模型为什么会变”，本章解释“模型为什么能放大”。当模型参数、数据和上下文都增长时，问题不再只是算法，而是显存、通信、并行、数据质量和集群稳定性。ZeRO 是 Zero Redundancy Optimizer，它通过分片优化器状态、梯度和参数来降低训练冗余；Scaling Law、Chinchilla、LAION、RefinedWeb 和 MegaScale 则构成了这一部分的其他主线。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.86\textwidth]{infra-data-stack.png}
\caption{Infra 与数据栈：ZeRO、Scaling Law、开源数据和万卡集群共同放大模型。自制概念图，依据 01:52:58--02:21:29 对谈内容整理。}
\end{figure}

读图：底座不是幕后杂务

没有 ZeRO 这类并行和状态分片，大模型放不进多 GPU；这里的状态包括 optimizer state，也就是 Adam/AdamW 的 \(m\)、\(v\) 等优化器状态。没有 Scaling Law 和 Chinchilla，训练预算不知道如何分配；没有 LAION、RefinedWeb 这类数据工程，模型没有足够可用语料；没有 MegaScale 这类集群工程，万卡训练就只是口号。

ZeRO：把状态切开

本节先处理一个必须消化的系统概念。ZeRO 的核心是把训练中原本每张 GPU 都复制的状态切开，包括优化器状态、梯度和参数，从而降低单卡显存压力。它不是让模型变聪明的算法，但它让更大模型训练成为可能。

什么是 ZeRO：Zero Redundancy Optimizer

ZeRO 是 Zero Redundancy Optimizer 的缩写，核心思想是把数据并行中的冗余状态做分片（sharding），让每张 GPU 只保存一部分训练状态，而不是完整复制。ZeRO-1 分片优化器状态，ZeRO-2 进一步分片梯度，ZeRO-3 进一步分片参数。这里的 optimizer state 通常指 Adam/AdamW 的一阶动量 \(m\) 和二阶动量 \(v\)，这些状态会显著增加训练显存。

Scaling Law 与 Chinchilla：预算分配的指挥棒

Scaling Law 尝试描述模型性能如何随参数量、数据量和计算量变化。Chinchilla 则进一步提醒，在固定计算预算下，模型参数和训练 token 需要更合理配比；只堆参数而数据不足，可能不是最优。它们的意义不是给出永恒定律，而是让训练从拍脑袋变成可预测的预算分配问题。

Scaling Law 的直觉公式

可以把损失的下降粗略理解为：

\[ L(N, D, C) \downarrow \quad \text{as} \quad N,D,C \uparrow \]

其中，\(N\) 表示模型参数量，\(D\) 表示训练数据量，\(C\) 表示计算预算。这个式子不是精确公式，而是提醒我们：参数、数据和计算要配合增长，不能只押一个维度。

LAION、RefinedWeb 与开源数据

上一节讨论预算如何分配，本节转向预算背后的燃料：数据。LAION-5B 体现了开源社区希望打破少数工业巨头垄断的努力；RefinedWeb 则说明互联网数据经过清洗、过滤和配比，仍然可以支撑强模型。数据不是越多越好，而是来源、质量、过滤、去重、版权和可复现性共同决定模型上限。

开源数据不是免费午餐

开源数据降低了进入门槛，也带来质量、版权、偏见和安全问题。真正的数据工程不是下载一个大文件，而是持续做过滤、去重、标注、评测和追踪。

MegaScale：万卡训练的工程课

数据决定模型能学什么，但要把数据真正喂给模型，还需要集群工程。本节的 MegaScale 代表大规模训练的工程现实。训练集群里 GPU 利用率、通信开销、故障恢复、调度、网络拓扑和内存带宽都会决定真实成本。讲者提到 MFU，即 Model FLOPs Utilization，反映模型实际使用硬件算力的比例；哪怕接近 50% 已经很优秀，也意味着仍有大量算力被通信和等待吞掉。

术语消化：Infra 与数据

术语	解决的问题	为什么重要
ZeRO	训练状态分片	让更大模型能放进多 GPU 显存。
Scaling Law	预测规模与性能关系	指导参数、数据和计算预算。
Chinchilla	数据/参数配比	防止只堆参数而训练 token 不足。
LAION/RefinedWeb	开源多模态/网页数据	让模型训练不完全依赖封闭巨头。
MFU	衡量硬件利用率	低 MFU 会让同样算力买来更少训练进度。

本章小结

Infra 与数据线说明，大模型不是只靠论文公式长大的。它需要显存分片、并行通信、规模规律、数据工程、开源社区和集群可靠性。模型范式定义方向，Infra 和数据决定方向能不能被规模化兑现。

语言模型：从词向量到后训练

前两章解释了模型范式和训练底座，现在回到今天大多数人最熟悉的入口：语言模型。本章把“表示、预训练、后训练”连成一条线。语言模型的发展可以看成三个阶段：先把词变成向量，再用预训练学习语言规律，最后用指令、偏好和开源后训练把模型变得可用、可控、可服务用户。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{language-model-lineage.png}
\caption{语言模型谱系：从词向量到预训练，再到指令对齐与开源后训练。自制概念图，依据 02:21:29--03:08:08 对谈内容整理。}
\end{figure}

读图：语言模型的主线是“表示到行为”

Word2Vec 解决词的表示，神经机器翻译证明深度模型能在线服务，GPT/BERT 建立预训练范式，GPT-3 展示规模涌现，InstructGPT 和 Tulu 3 则把模型推向人类可用和开源后训练。

Word2Vec 与 Google Translate：表示和部署

本章先从语言模型的前史讲起，因为没有表示学习，就没有后来的上下文学习。Word2Vec 用机器学习把词转成向量，让语义关系进入连续空间。Google Translate 的神经网络部署则展示了深度学习不只在论文里有效，也能在大规模线上系统中替代传统方法。这两步分别回答了“语言怎样表示”和“神经模型怎样服务真实用户”。

词向量的意义

词向量把离散词映射到连续空间，使相似词在向量空间中更接近。这为后来的上下文表示、Transformer embedding 和语义检索铺路，但它仍然是静态表示，无法像 LLM 那样按上下文动态理解词义。

GPT-1、BERT、GPT-2 与 GPT-3

从词向量和线上翻译往后走，语言模型真正进入预训练时代。本节的 GPT-1、BERT、GPT-2 和 GPT-3 分别代表不同阶段：GPT-1 提出无监督预训练加监督微调的 NLP 新范式；BERT 用双向 masked language modeling 在理解任务上成为“曾经的王”；GPT-2 强化了生成式预训练的路线，并让大家开始认真看待“告别微调”的可能；GPT-3 则把 Scaling Law、组织押注和大规模工程结合起来，成为 ChatGPT 前夜最重要的信号。

GPT 与 BERT 的分岔

路线	训练方式	典型优势
BERT	遮盖词预测，双向上下文	理解、分类、抽取等判别任务强。
GPT	自回归 next-token prediction	生成、补全、对话和通用任务扩展性强。
GPT-3	大规模自回归预训练	少样本、上下文学习和涌现能力成为焦点。

InstructGPT 与 Tulu 3：让模型进入文明社会

InstructGPT 的核心意义是把模型从“会续写互联网文本”推向“能按人类意图回答”。这背后是指令数据、偏好数据和 RLHF 等后训练方法。Tulu 3 则代表开源社区试图把后训练流程系统化、透明化，让模型能力不只掌握在少数闭源实验室手中。

后训练不是锦上添花

预训练给模型世界知识和语言能力，后训练决定它如何响应人类、遵守指令、拒绝危险请求、按格式输出和完成任务。没有后训练，强模型也可能很难变成好产品。

本章小结

语言模型线把 AI 从表示学习推到通用交互入口。Word2Vec 到 GPT-3 是能力增长，InstructGPT 到 Tulu 3 是可用性、对齐和开源后训练的增长。今天的 LLM 产品建立在这两条增长曲线交汇处。

多模态：从视频理解到生成模型融合

本章进入第四条主线：多模态。多模态的发展不是简单“给语言模型加图片”，而是视觉理解、视频建模、生成模型、视觉 Transformer、图文对齐和扩散 Transformer 逐步汇合。这里的关键词是融合：不同模态最终要在统一表征、统一生成或统一推理框架里互相影响。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{multimodal-lineage.png}
\caption{多模态模型谱系：视频、GAN、Diffusion、ViT、CLIP、Stable Diffusion 与 DiT 汇合。自制概念图，依据 03:08:08--03:56:38 对谈内容整理。}
\end{figure}

读图：多模态不是一条直线

视频理解、图像生成、视觉 Transformer、图文对齐和扩散模型分别从不同问题出发。它们后来汇合，是因为模型需要同时理解世界、生成世界，并用语言把视觉能力接入用户意图。

DeepVideo、双流网络与早期视频理解

DeepVideo 和双流网络代表早期深度学习进入视频领域的尝试。图像可以被 CNN 处理之后，研究者自然会问：视频是不是也可以？难点在于视频多了时间维度，模型不仅要识别单帧内容，还要理解动作、运动和事件。

视频比图像多出的难题

视频建模至少多了三个问题：时间依赖、运动表示和长程事件。单帧图像回答“这是什么”，视频还要回答“它怎样变化”“为什么这样变化”“接下来会怎样”。

GAN、Diffusion 与 DDPM

图像生成线先由 GAN 主导。GAN 能生成锐利样本，但训练不稳定；VAE 训练稳定但图像容易模糊。Diffusion 早期在 GAN 阴影下成长，DDPM 让扩散模型重新回到图像舞台中央。扩散模型的优势在于训练稳定、生成质量好，并能和条件控制、文本引导结合。

GAN 与 Diffusion 的取舍

模型族	优势	难点
GAN	样本锐利，生成速度快	训练不稳定，模式崩塌风险高。
VAE	训练稳定，有概率建模解释	样本容易模糊。
Diffusion	稳定、高质量、易条件控制	采样成本较高，需要工程优化。

ViT、CLIP、Stable Diffusion 与 DiT

前面讲生成模型如何走向扩散，本节看视觉和语言如何汇合到统一架构。ViT 把图像切成 patch，并用 Transformer 处理视觉 token；CLIP 把图像和文本放入同一语义空间，成为文生图和多模态检索的重要基石；Stable Diffusion 把扩散模型、潜空间和开源生态结合起来，推动图像生成普及；DiT 则把 Diffusion 与 Transformer 更深地融合，代表人们对统一架构未来的期待。

CLIP 为什么关键

CLIP 的重要性在于图文对齐。它让模型知道一张图和一段文本在语义上是否匹配，从而支撑文生图、图像检索、数据过滤和多模态表示学习。没有图文对齐，生成模型很难稳定听懂用户提示。

本章小结

多模态线说明，视觉、语言和生成正在靠拢。GAN 解决生成起点，Diffusion 解决质量和稳定，ViT 把视觉拉进 Transformer，CLIP 建立图文桥梁，DiT 则把生成和 Transformer 进一步合流。

开源学习地图与未来边界

前面四章讲完论文主线，本章回到结尾聊天。张小珺和谢青池讨论的关键词包括：架构要抱住硬件大腿，今天技术边界仍未触顶，OpenAI 可能从 lab 走向超级 app 或操作系统，Google 仍有强人才、工程和 Infra 底蕴。这里最值得带走的是边界意识：AI 还处在很早期，许多能力看似惊人，但和个人计算史类比，可能还在小型机甚至个人计算前期。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{open-source-learning-map.png}
\caption{开源学习地图：论文、代码、数据、模型、PPT 和社区形成学习基础设施。自制概念图，依据 03:56:38--04:22:20 对谈内容整理。}
\end{figure}

读图：开源不只是代码

这期本身就是开源学习的一部分：论文路线、视频讲解、PPT、数据集、代码和社区讨论共同降低进入门槛。开源的价值不只在复现结果，也在让更多人看到问题的源头和历史脉络。

给两类读者的建议

本节把结尾建议具体化。对于站在 AI 世界门外张望的人，最重要的是先建立地图：用 AI 翻译论文，读综述和路线图，理解三到五年不变的概念，不要一上来陷进公式细节。对于已经在体系中工作多年的人，重要的是回到问题源头：为什么这篇论文出现，硬件和数据边界是什么，现有产品有没有误读论文的机制。

图片资源缺失

\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{two-reader-advice.png}
\caption{两类读者建议：门外张望者先建立地图，体系内工作者要追问边界。自制概念图，依据 03:56:38--04:22:20 对谈内容整理。}
\end{figure}

读图：不同读者的学习重点不同

门外读者最缺的是入口和信心，所以先读路线图；体系内读者最容易陷入局部优化，所以要回到问题源头、硬件约束和历史脉络。两者都需要论文，但读法不同。

硬件、超级 App 与操作系统

上一节给读者学习建议，本节把学习建议放回产业竞争：读论文是为了看清平台边界。结尾对 OpenAI 和 Google 的讨论，可以放进平台竞争框架。Google 有人才、工程和 Infra 底蕴；OpenAI 如果只是 lab，和 Google 比肩会很难；如果做成超级 app 或操作系统，竞争结构会变。这个判断和 EP118 的 Agent OS、EP127 的 AI War、EP139 的 Agent 边界收敛互相呼应：模型公司最终会争夺入口、工具、生态和操作系统位置。

不要把模型领先等同于平台胜利

模型能力是必要条件，但平台还需要产品入口、开发者生态、工具调用、数据回流、商业模式和组织执行。Google 与 OpenAI 的差异，不只是 benchmark，而是底层资源和平台路径差异。

本章小结

EP117 的结尾提醒我们：技术边界远未结束，真正要学的是问题和边界，而不是单篇论文的结论。开源学习地图能降低门槛，但长期理解仍来自持续阅读、复盘和把论文放回历史。

总结与延伸

本节把整期压缩成一个学习框架。第一，模型范式不是孤立论文，而是硬件、数据、架构和训练技巧对齐后的结果。第二，Infra 与数据是模型能力的放大器，没有显存分片、集群效率和高质量数据，Scaling Law 只是纸面规律。第三，语言模型的发展是从表示到预训练，再到后训练和对齐的过程。第四，多模态的发展是视觉理解、图像生成、图文对齐和 Transformer 化逐步合流的过程。第五，读论文的关键不是读完，而是建立边界意识。

把 EP117 放进张小珺 AI 队列

EP119 讲 Attention 架构考古，EP118 讲 CEO 如何理解 VLA、Agent OS 和平台，EP117 则把这些问题往历史深处拉：为什么 Transformer 会赢，为什么 Infra 和数据成为主线，为什么语言模型和多模态最终会汇合。

36 篇论文的压缩表

主线	论文/节点	教学意义
模型范式	Brook、AlexNet、ResNet	GPU、深度学习和残差网络共同改变可训练边界。
模型范式	seq2seq、Attention、Transformer	序列建模从压缩状态走向直接建模 token 关系。
模型范式	AlphaGo Zero、MoE、CoT、LoRA、ReAct	强化学习、专家路由、推理提示、低成本适配和 Agent 形成后续系统能力。
模型范式	The Bitter Lesson	长期看，通用计算和规模化学习反复压过手工结构。
Infra/数据	ZeRO、MegaScale	分片和集群工程决定大模型能否被训练。
Infra/数据	Scaling Law、Chinchilla	参数、数据和计算预算需要配比。
Infra/数据	LAION-5B、RefinedWeb	开源数据和网页数据工程决定可训练语料边界。
语言模型	Word2Vec、Google Translate	词表示和线上神经模型部署是语言模型前史。
语言模型	GPT-1、BERT、GPT-2、GPT-3	预训练范式从理解任务走向生成和规模涌现。
语言模型	InstructGPT、Tulu 3	后训练、指令对齐和开源复现让模型可用。
多模态	DeepVideo、双流网络	视频理解把深度学习从静态图像推向时间维度。
多模态	GAN、Diffusion、DDPM	生成模型从对抗训练走向扩散稳定生成。
多模态	ViT、CLIP、Stable Diffusion、DiT	视觉 Transformer、图文对齐和扩散 Transformer 走向融合。

拓展阅读

对模型范式感兴趣，可以继续对照 EP119 的 Attention 架构综述，理解 Transformer 之后为什么仍然要继续“雕 Attention”。
对物理世界 AI 感兴趣，可以继续对照 EP118、EP120、EP121，把 VLA、世界模型和机器人数据放进同一张图。
对 Agent 感兴趣，可以继续对照 EP139 的 Agent 技术史和 EP138 的后训练/Agent 范式，理解 CoT/ReAct 如何变成真实系统。