Ep117 Zrvnoyypawq
导读:为什么从论文进入 AI 世界
本节先建立这期节目的学习姿势。谢青池不是以研究员身份讲论文,而是以产品负责人、长期自学者和技术边界观察者的身份,把一年多读 200 多篇论文的路径开源出来。这个视角很有价值:它不追求把每篇论文讲成数学课,而是追问每篇论文改变了什么边界、打开了什么范式、后来被谁继承、又怎样变成产品和产业的基础。
这期的 36 篇论文可以压缩成四条主线。第一是模型范式:从 GPU、AlexNet、Attention、Transformer 到 MoE、CoT、LoRA、ReAct 和 Bitter Lesson。第二是 Infra 与数据:ZeRO(Zero Redundancy Optimizer,用优化器状态、梯度和参数分片减少训练冗余)、Scaling Law、Chinchilla、LAION、RefinedWeb、MegaScale 解释模型为什么能被放大。第三是语言模型:Word2Vec、Google Translate、GPT、BERT、GPT-3、InstructGPT、Tulu 3 解释 LLM 怎样成为今天的入口。第四是多模态:DeepVideo、双流网络、GAN、Diffusion、ViT、CLIP、Stable Diffusion、DiT 解释视觉和生成模型怎样汇入 Transformer 时代。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{four-part-history-map.png}
\caption{36 篇论文的四条主线:模型范式、Infra/数据、语言模型和多模态共同构成 AI 变迁史。自制概念图,依据视频描述和 00:19:35--03:56:38 对谈内容整理。}
\end{figure}
读图:这不是论文清单,而是边界地图
模型范式决定“什么结构可以学”;Infra 和数据决定“能放大到什么规模”;语言模型决定“人如何用自然语言调用智能”;多模态决定“模型如何进入视觉、视频和生成世界”。四条线互相咬合,才形成今天的 AI 产业。
本期核心命题
读论文的价值不是背诵论文标题,而是直接接触问题源头。真正读懂一篇关键论文,等于知道当时的研究者面对什么边界、为什么选择这个解法、后来哪一部分被时代放大、哪一部分被硬件或数据淘汰。
用 AI 学 AI:论文阅读闭环
上一段解释了为什么读论文,本节看怎样把论文读下去。谢青池讲到,自己最初遇到的门槛包括数学基础、英文论文、术语多义和缺少路线图。解决办法不是硬扛,而是用 AI 做翻译、解释、追问和整理,把论文从孤立 PDF 变成可讨论、可复盘、可分享的知识节点。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{paper-reading-loop.png}
\caption{用 AI 学 AI 的论文阅读闭环:翻译、提问、路书、复盘和分享让论文不再只是 PDF。自制概念图,依据 00:01:30--00:19:35 对谈内容整理。}
\end{figure}
读图:AI 不是替你读,而是帮你搭脚手架
AI 可以帮助跨过英文、术语和背景知识门槛,但不能替代问题意识。好的读法是先找到问题,再让 AI 帮你翻译、解释、对比和反问,最后把论文放回历史路线图中。
本章小结
EP117 的真正主题是“怎样进入技术世界”。36 篇论文只是载体,更深的训练是建立问题地图:知道哪些概念长期不变,哪些边界正在变化,哪些能力来自模型,哪些能力来自 Infra、数据和硬件。
模型范式变迁:从 GPU 到 Agent
本章覆盖第一条主线:模型范式。故事从 1999 年第一颗 GPU 讲起,不是因为 GPU 是论文,而是因为它改变了可计算边界。Brook、CUDA、AlexNet、ResNet、Transformer 等工作,都说明一个朴素事实:算法范式能否成为时代主线,常常取决于它有没有抱住硬件和数据的大腿。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{model-paradigm-timeline.png}
\caption{模型范式时间线:GPU、CNN、Attention、Transformer、MoE 与 Agent 逐步接力。自制概念图,依据 00:19:35--01:52:58 对谈内容整理。}
\end{figure}
读图:范式不是突然出现的
AlexNet 之前有 GPU 和图像数据,Transformer 之前有 seq2seq、Attention、残差网络和并行计算,Agent 之前有 CoT、工具调用和 ReAct。范式变化常常是许多旧积累在某个硬件/数据窗口里突然连起来。
GPU、Brook、AlexNet 与硬件彩票
本节先看硬件如何改变模型命运。Brook for GPU 代表早期通用 GPU 计算探索,AlexNet 则在 2012 年用 GPU 和深度卷积网络击穿 ImageNet。讲者反复强调“硬件彩票”:一个方法如果正好适合主流硬件,训练速度、工程生态和研究投入都会被放大;反之,思想可能正确,但难以成为时代主线。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{hardware-lottery.png}
\caption{硬件彩票:能抱住主流硬件的架构会获得长期复利。自制概念图,依据 00:19:35--00:30:00 与 03:56:38--04:03:00 对谈内容整理。}
\end{figure}
读图:为什么 AlexNet 是分界线
AlexNet 不只是“用了 CNN”,还证明了深度学习、GPU、数据集和工程技巧可以组合成压倒性优势。它击败的是手工特征主导的范式,也预示了 Bitter Lesson:当算力继续增长,通用学习方法会反复压过人工设计。
seq2seq、Attention 与 Transformer
前面讲图像,本节转向序列。seq2seq 让模型把输入序列压缩成状态再解码,Attention 则允许解码时直接关注输入的不同位置,缓解长句和上下文丢失问题。Transformer 更进一步,用 self-attention 和并行计算替代 RNN 的顺序瓶颈,让序列内部 token 之间可以直接建模关系。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{transformer-origin-ladder.png}
\caption{从序列建模到 Transformer:seq2seq、Attention、残差与并行计算共同铺路。自制概念图,依据 00:34:02--01:05:24 对谈内容整理。}
\end{figure}
Attention 的核心直觉
Attention 允许模型在处理当前位置时直接计算它和其他位置的相关关系。相比 RNN 依赖一步步传递隐藏状态,Attention 缩短了信息路径;相比卷积需要多层扩大感受野,self-attention 可以在一层内看到整个上下文窗口。
ResNet、蒸馏、AlphaGo Zero 与 MoE
前面讲的是架构如何处理图像和序列,本节把范围扩展到训练技巧、能力迁移和计算经济学。模型范式不仅是结构,还包括训练和能力迁移。ResNet 用残差连接解决更深网络训练难题;蒸馏提出大模型知识可以被小模型学习;AlphaGo Zero 展示强化学习和自我对弈可以绕开人类棋谱;现代 MoE 则通过专家路由降低激活成本,让大模型容量和计算成本不再完全线性绑定。
术语消化:模型范式节点
| 节点 | 解决的问题 | 后续影响 |
|---|---|---|
| ResNet | 深层网络退化和训练困难 | 残差成为深度网络通用构件,也进入 Transformer。 |
| Distillation | 大模型能力如何迁移到小模型 | 支撑端侧部署、学生模型和模型压缩。 |
| AlphaGo Zero | 不依赖人类数据也能学习策略 | 强化学习、自我博弈和 test-time search 的思想被反复引用。 |
| MoE | 增加参数容量但控制每次计算量 | DeepSeek 等模型把专家路由变成现代 LLM 的重要路线。 |
CoT、LoRA、ReAct 与 Agent 化
本节从基础模型进入使用方式。CoT 让大家意识到模型输入会影响输出,推动 prompt engineering 和 context engineering;LoRA 让低成本参数适配变得普遍;ReAct 把 reasoning 和 acting 放在同一个循环中,为 Agent 从理论走向工具调用奠基。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{adaptation-agent-stack.png}
\caption{从能力到行动的栈:蒸馏、LoRA、CoT 和 ReAct 把模型推向可用系统。自制概念图,依据 01:26:40--01:37:10 对谈内容整理。}
\end{figure}
读图:模型能力需要被“引出”和“接住”
蒸馏和 LoRA 解决能力迁移与适配成本,CoT 让模型显式展开推理,ReAct 让推理连接外部工具。Agent 并不是凭空出现,而是这些机制逐渐把模型推向行动闭环。
Bitter Lesson:长期主义的冷水
前面所有节点都在暗示一个规律,本节用 The Bitter Lesson 把它说透。它的观点是,长期看,依赖通用计算和大规模搜索/学习的方法,往往胜过手工编码知识的方法。讲者强调,这不是说手工特征永远无用,而是说手工结构常常在某个算力量级内有效;一旦算力和数据跨过阈值,通用学习方法会重新占优。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{bitter-lesson-map.png}
\caption{Bitter Lesson:长期看,通用计算与规模化学习会反复压过手工结构。自制概念图,依据 01:45:00--01:52:40 对谈内容整理。}
\end{figure}
Bitter Lesson 不是“不要做结构设计”
结构设计仍然重要,尤其在数据少、算力弱、目标明确时。但如果一个结构不能随算力、数据和硬件生态一起 scale,它就可能在下一轮范式迁移中被通用方法压过。
本章小结
模型范式线告诉我们:AI 进步不是单篇论文胜利,而是硬件、数据、训练方法、架构和使用方式共同对齐。GPU 让深度学习可行,Attention 让长依赖可学,Transformer 抱住并行硬件,CoT/ReAct 则把模型推向行动。
Infra 与数据:规模化学习的底座
上一章解释“模型为什么会变”,本章解释“模型为什么能放大”。当模型参数、数据和上下文都增长时,问题不再只是算法,而是显存、通信、并行、数据质量和集群稳定性。ZeRO 是 Zero Redundancy Optimizer,它通过分片优化器状态、梯度和参数来降低训练冗余;Scaling Law、Chinchilla、LAION、RefinedWeb 和 MegaScale 则构成了这一部分的其他主线。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.86\textwidth]{infra-data-stack.png}
\caption{Infra 与数据栈:ZeRO、Scaling Law、开源数据和万卡集群共同放大模型。自制概念图,依据 01:52:58--02:21:29 对谈内容整理。}
\end{figure}
读图:底座不是幕后杂务
没有 ZeRO 这类并行和状态分片,大模型放不进多 GPU;这里的状态包括 optimizer state,也就是 Adam/AdamW 的 \(m\)、\(v\) 等优化器状态。没有 Scaling Law 和 Chinchilla,训练预算不知道如何分配;没有 LAION、RefinedWeb 这类数据工程,模型没有足够可用语料;没有 MegaScale 这类集群工程,万卡训练就只是口号。
ZeRO:把状态切开
本节先处理一个必须消化的系统概念。ZeRO 的核心是把训练中原本每张 GPU 都复制的状态切开,包括优化器状态、梯度和参数,从而降低单卡显存压力。它不是让模型变聪明的算法,但它让更大模型训练成为可能。
什么是 ZeRO:Zero Redundancy Optimizer
ZeRO 是 Zero Redundancy Optimizer 的缩写,核心思想是把数据并行中的冗余状态做分片(sharding),让每张 GPU 只保存一部分训练状态,而不是完整复制。ZeRO-1 分片优化器状态,ZeRO-2 进一步分片梯度,ZeRO-3 进一步分片参数。这里的 optimizer state 通常指 Adam/AdamW 的一阶动量 \(m\) 和二阶动量 \(v\),这些状态会显著增加训练显存。
Scaling Law 与 Chinchilla:预算分配的指挥棒
Scaling Law 尝试描述模型性能如何随参数量、数据量和计算量变化。Chinchilla 则进一步提醒,在固定计算预算下,模型参数和训练 token 需要更合理配比;只堆参数而数据不足,可能不是最优。它们的意义不是给出永恒定律,而是让训练从拍脑袋变成可预测的预算分配问题。
Scaling Law 的直觉公式
可以把损失的下降粗略理解为:
其中,\(N\) 表示模型参数量,\(D\) 表示训练数据量,\(C\) 表示计算预算。这个式子不是精确公式,而是提醒我们:参数、数据和计算要配合增长,不能只押一个维度。
LAION、RefinedWeb 与开源数据
上一节讨论预算如何分配,本节转向预算背后的燃料:数据。LAION-5B 体现了开源社区希望打破少数工业巨头垄断的努力;RefinedWeb 则说明互联网数据经过清洗、过滤和配比,仍然可以支撑强模型。数据不是越多越好,而是来源、质量、过滤、去重、版权和可复现性共同决定模型上限。
开源数据不是免费午餐
开源数据降低了进入门槛,也带来质量、版权、偏见和安全问题。真正的数据工程不是下载一个大文件,而是持续做过滤、去重、标注、评测和追踪。
MegaScale:万卡训练的工程课
数据决定模型能学什么,但要把数据真正喂给模型,还需要集群工程。本节的 MegaScale 代表大规模训练的工程现实。训练集群里 GPU 利用率、通信开销、故障恢复、调度、网络拓扑和内存带宽都会决定真实成本。讲者提到 MFU,即 Model FLOPs Utilization,反映模型实际使用硬件算力的比例;哪怕接近 50% 已经很优秀,也意味着仍有大量算力被通信和等待吞掉。
术语消化:Infra 与数据
| 术语 | 解决的问题 | 为什么重要 |
|---|---|---|
| ZeRO | 训练状态分片 | 让更大模型能放进多 GPU 显存。 |
| Scaling Law | 预测规模与性能关系 | 指导参数、数据和计算预算。 |
| Chinchilla | 数据/参数配比 | 防止只堆参数而训练 token 不足。 |
| LAION/RefinedWeb | 开源多模态/网页数据 | 让模型训练不完全依赖封闭巨头。 |
| MFU | 衡量硬件利用率 | 低 MFU 会让同样算力买来更少训练进度。 |
本章小结
Infra 与数据线说明,大模型不是只靠论文公式长大的。它需要显存分片、并行通信、规模规律、数据工程、开源社区和集群可靠性。模型范式定义方向,Infra 和数据决定方向能不能被规模化兑现。
语言模型:从词向量到后训练
前两章解释了模型范式和训练底座,现在回到今天大多数人最熟悉的入口:语言模型。本章把“表示、预训练、后训练”连成一条线。语言模型的发展可以看成三个阶段:先把词变成向量,再用预训练学习语言规律,最后用指令、偏好和开源后训练把模型变得可用、可控、可服务用户。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{language-model-lineage.png}
\caption{语言模型谱系:从词向量到预训练,再到指令对齐与开源后训练。自制概念图,依据 02:21:29--03:08:08 对谈内容整理。}
\end{figure}
读图:语言模型的主线是“表示到行为”
Word2Vec 解决词的表示,神经机器翻译证明深度模型能在线服务,GPT/BERT 建立预训练范式,GPT-3 展示规模涌现,InstructGPT 和 Tulu 3 则把模型推向人类可用和开源后训练。
Word2Vec 与 Google Translate:表示和部署
本章先从语言模型的前史讲起,因为没有表示学习,就没有后来的上下文学习。Word2Vec 用机器学习把词转成向量,让语义关系进入连续空间。Google Translate 的神经网络部署则展示了深度学习不只在论文里有效,也能在大规模线上系统中替代传统方法。这两步分别回答了“语言怎样表示”和“神经模型怎样服务真实用户”。
词向量的意义
词向量把离散词映射到连续空间,使相似词在向量空间中更接近。这为后来的上下文表示、Transformer embedding 和语义检索铺路,但它仍然是静态表示,无法像 LLM 那样按上下文动态理解词义。
GPT-1、BERT、GPT-2 与 GPT-3
从词向量和线上翻译往后走,语言模型真正进入预训练时代。本节的 GPT-1、BERT、GPT-2 和 GPT-3 分别代表不同阶段:GPT-1 提出无监督预训练加监督微调的 NLP 新范式;BERT 用双向 masked language modeling 在理解任务上成为“曾经的王”;GPT-2 强化了生成式预训练的路线,并让大家开始认真看待“告别微调”的可能;GPT-3 则把 Scaling Law、组织押注和大规模工程结合起来,成为 ChatGPT 前夜最重要的信号。
GPT 与 BERT 的分岔
| 路线 | 训练方式 | 典型优势 |
|---|---|---|
| BERT | 遮盖词预测,双向上下文 | 理解、分类、抽取等判别任务强。 |
| GPT | 自回归 next-token prediction | 生成、补全、对话和通用任务扩展性强。 |
| GPT-3 | 大规模自回归预训练 | 少样本、上下文学习和涌现能力成为焦点。 |
InstructGPT 与 Tulu 3:让模型进入文明社会
InstructGPT 的核心意义是把模型从“会续写互联网文本”推向“能按人类意图回答”。这背后是指令数据、偏好数据和 RLHF 等后训练方法。Tulu 3 则代表开源社区试图把后训练流程系统化、透明化,让模型能力不只掌握在少数闭源实验室手中。
后训练不是锦上添花
预训练给模型世界知识和语言能力,后训练决定它如何响应人类、遵守指令、拒绝危险请求、按格式输出和完成任务。没有后训练,强模型也可能很难变成好产品。
本章小结
语言模型线把 AI 从表示学习推到通用交互入口。Word2Vec 到 GPT-3 是能力增长,InstructGPT 到 Tulu 3 是可用性、对齐和开源后训练的增长。今天的 LLM 产品建立在这两条增长曲线交汇处。
多模态:从视频理解到生成模型融合
本章进入第四条主线:多模态。多模态的发展不是简单“给语言模型加图片”,而是视觉理解、视频建模、生成模型、视觉 Transformer、图文对齐和扩散 Transformer 逐步汇合。这里的关键词是融合:不同模态最终要在统一表征、统一生成或统一推理框架里互相影响。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{multimodal-lineage.png}
\caption{多模态模型谱系:视频、GAN、Diffusion、ViT、CLIP、Stable Diffusion 与 DiT 汇合。自制概念图,依据 03:08:08--03:56:38 对谈内容整理。}
\end{figure}
读图:多模态不是一条直线
视频理解、图像生成、视觉 Transformer、图文对齐和扩散模型分别从不同问题出发。它们后来汇合,是因为模型需要同时理解世界、生成世界,并用语言把视觉能力接入用户意图。
DeepVideo、双流网络与早期视频理解
DeepVideo 和双流网络代表早期深度学习进入视频领域的尝试。图像可以被 CNN 处理之后,研究者自然会问:视频是不是也可以?难点在于视频多了时间维度,模型不仅要识别单帧内容,还要理解动作、运动和事件。
视频比图像多出的难题
视频建模至少多了三个问题:时间依赖、运动表示和长程事件。单帧图像回答“这是什么”,视频还要回答“它怎样变化”“为什么这样变化”“接下来会怎样”。
GAN、Diffusion 与 DDPM
图像生成线先由 GAN 主导。GAN 能生成锐利样本,但训练不稳定;VAE 训练稳定但图像容易模糊。Diffusion 早期在 GAN 阴影下成长,DDPM 让扩散模型重新回到图像舞台中央。扩散模型的优势在于训练稳定、生成质量好,并能和条件控制、文本引导结合。
GAN 与 Diffusion 的取舍
| 模型族 | 优势 | 难点 |
|---|---|---|
| GAN | 样本锐利,生成速度快 | 训练不稳定,模式崩塌风险高。 |
| VAE | 训练稳定,有概率建模解释 | 样本容易模糊。 |
| Diffusion | 稳定、高质量、易条件控制 | 采样成本较高,需要工程优化。 |
ViT、CLIP、Stable Diffusion 与 DiT
前面讲生成模型如何走向扩散,本节看视觉和语言如何汇合到统一架构。ViT 把图像切成 patch,并用 Transformer 处理视觉 token;CLIP 把图像和文本放入同一语义空间,成为文生图和多模态检索的重要基石;Stable Diffusion 把扩散模型、潜空间和开源生态结合起来,推动图像生成普及;DiT 则把 Diffusion 与 Transformer 更深地融合,代表人们对统一架构未来的期待。
CLIP 为什么关键
CLIP 的重要性在于图文对齐。它让模型知道一张图和一段文本在语义上是否匹配,从而支撑文生图、图像检索、数据过滤和多模态表示学习。没有图文对齐,生成模型很难稳定听懂用户提示。
本章小结
多模态线说明,视觉、语言和生成正在靠拢。GAN 解决生成起点,Diffusion 解决质量和稳定,ViT 把视觉拉进 Transformer,CLIP 建立图文桥梁,DiT 则把生成和 Transformer 进一步合流。
开源学习地图与未来边界
前面四章讲完论文主线,本章回到结尾聊天。张小珺和谢青池讨论的关键词包括:架构要抱住硬件大腿,今天技术边界仍未触顶,OpenAI 可能从 lab 走向超级 app 或操作系统,Google 仍有强人才、工程和 Infra 底蕴。这里最值得带走的是边界意识:AI 还处在很早期,许多能力看似惊人,但和个人计算史类比,可能还在小型机甚至个人计算前期。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.96\textwidth]{open-source-learning-map.png}
\caption{开源学习地图:论文、代码、数据、模型、PPT 和社区形成学习基础设施。自制概念图,依据 03:56:38--04:22:20 对谈内容整理。}
\end{figure}
读图:开源不只是代码
这期本身就是开源学习的一部分:论文路线、视频讲解、PPT、数据集、代码和社区讨论共同降低进入门槛。开源的价值不只在复现结果,也在让更多人看到问题的源头和历史脉络。
给两类读者的建议
本节把结尾建议具体化。对于站在 AI 世界门外张望的人,最重要的是先建立地图:用 AI 翻译论文,读综述和路线图,理解三到五年不变的概念,不要一上来陷进公式细节。对于已经在体系中工作多年的人,重要的是回到问题源头:为什么这篇论文出现,硬件和数据边界是什么,现有产品有没有误读论文的机制。
图片资源缺失
\begin{figure}[H]
\centering
\includegraphics[width=0.94\textwidth]{two-reader-advice.png}
\caption{两类读者建议:门外张望者先建立地图,体系内工作者要追问边界。自制概念图,依据 03:56:38--04:22:20 对谈内容整理。}
\end{figure}
读图:不同读者的学习重点不同
门外读者最缺的是入口和信心,所以先读路线图;体系内读者最容易陷入局部优化,所以要回到问题源头、硬件约束和历史脉络。两者都需要论文,但读法不同。
硬件、超级 App 与操作系统
上一节给读者学习建议,本节把学习建议放回产业竞争:读论文是为了看清平台边界。结尾对 OpenAI 和 Google 的讨论,可以放进平台竞争框架。Google 有人才、工程和 Infra 底蕴;OpenAI 如果只是 lab,和 Google 比肩会很难;如果做成超级 app 或操作系统,竞争结构会变。这个判断和 EP118 的 Agent OS、EP127 的 AI War、EP139 的 Agent 边界收敛互相呼应:模型公司最终会争夺入口、工具、生态和操作系统位置。
不要把模型领先等同于平台胜利
模型能力是必要条件,但平台还需要产品入口、开发者生态、工具调用、数据回流、商业模式和组织执行。Google 与 OpenAI 的差异,不只是 benchmark,而是底层资源和平台路径差异。
本章小结
EP117 的结尾提醒我们:技术边界远未结束,真正要学的是问题和边界,而不是单篇论文的结论。开源学习地图能降低门槛,但长期理解仍来自持续阅读、复盘和把论文放回历史。
总结与延伸
本节把整期压缩成一个学习框架。第一,模型范式不是孤立论文,而是硬件、数据、架构和训练技巧对齐后的结果。第二,Infra 与数据是模型能力的放大器,没有显存分片、集群效率和高质量数据,Scaling Law 只是纸面规律。第三,语言模型的发展是从表示到预训练,再到后训练和对齐的过程。第四,多模态的发展是视觉理解、图像生成、图文对齐和 Transformer 化逐步合流的过程。第五,读论文的关键不是读完,而是建立边界意识。
把 EP117 放进张小珺 AI 队列
EP119 讲 Attention 架构考古,EP118 讲 CEO 如何理解 VLA、Agent OS 和平台,EP117 则把这些问题往历史深处拉:为什么 Transformer 会赢,为什么 Infra 和数据成为主线,为什么语言模型和多模态最终会汇合。
36 篇论文的压缩表
| 主线 | 论文/节点 | 教学意义 |
|---|---|---|
| 模型范式 | Brook、AlexNet、ResNet | GPU、深度学习和残差网络共同改变可训练边界。 |
| 模型范式 | seq2seq、Attention、Transformer | 序列建模从压缩状态走向直接建模 token 关系。 |
| 模型范式 | AlphaGo Zero、MoE、CoT、LoRA、ReAct | 强化学习、专家路由、推理提示、低成本适配和 Agent 形成后续系统能力。 |
| 模型范式 | The Bitter Lesson | 长期看,通用计算和规模化学习反复压过手工结构。 |
| Infra/数据 | ZeRO、MegaScale | 分片和集群工程决定大模型能否被训练。 |
| Infra/数据 | Scaling Law、Chinchilla | 参数、数据和计算预算需要配比。 |
| Infra/数据 | LAION-5B、RefinedWeb | 开源数据和网页数据工程决定可训练语料边界。 |
| 语言模型 | Word2Vec、Google Translate | 词表示和线上神经模型部署是语言模型前史。 |
| 语言模型 | GPT-1、BERT、GPT-2、GPT-3 | 预训练范式从理解任务走向生成和规模涌现。 |
| 语言模型 | InstructGPT、Tulu 3 | 后训练、指令对齐和开源复现让模型可用。 |
| 多模态 | DeepVideo、双流网络 | 视频理解把深度学习从静态图像推向时间维度。 |
| 多模态 | GAN、Diffusion、DDPM | 生成模型从对抗训练走向扩散稳定生成。 |
| 多模态 | ViT、CLIP、Stable Diffusion、DiT | 视觉 Transformer、图文对齐和扩散 Transformer 走向融合。 |
拓展阅读
- 对模型范式感兴趣,可以继续对照 EP119 的 Attention 架构综述,理解 Transformer 之后为什么仍然要继续“雕 Attention”。
- 对物理世界 AI 感兴趣,可以继续对照 EP118、EP120、EP121,把 VLA、世界模型和机器人数据放进同一张图。
- 对 Agent 感兴趣,可以继续对照 EP139 的 Agent 技术史和 EP138 的后训练/Agent 范式,理解 CoT/ReAct 如何变成真实系统。