CS336 2026 Lecture 4：Attention Alternatives 与 Mixture of Experts

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于 Stanford CS336 Spring 2026 官方讲义整理
来源	Stanford CS336
日期	2026 年春季

本讲的问题：为什么 Transformer 不总是 full dense compute？

Lecture 4 把两个看似不同的方向放在一起：attention alternatives 和 mixture of experts。前者问：长上下文下，是否每个 token 都必须 attend 所有历史？后者问：每个 token 是否必须激活模型的所有参数？两者的共同目标是 selective computation：把昂贵计算只花在必要位置。

本讲主线

Attention alternatives 选择“看哪些历史状态”；MoE 选择“用哪些专家参数”。二者都是在模型质量、训练效率、推理成本和系统复杂度之间做条件计算 tradeoff。

本讲主线：用选择性计算控制成本

本节建立两条主线：attention alternatives 用更便宜的状态/稀疏机制控制长上下文成本；MoE 用条件计算扩大参数量但控制每 token FLOPs。

Slide 1: Lecture 4

展开说明：A T T E N T I O N A LT E R N AT I V E S A N D M I X T U R E S O F E X P E R T S

Slide 2: Attention alternatives

展开说明：Cost of attention rises with large context sizes… how do we control those costs?

Slide 3: The ‘basic’ toolkit

展开说明：Combine local + global attention Systems engineering

本章小结

本节的共同线索是 selective computation：通过结构选择让 token 不必总是访问所有历史或所有参数。但选择性越强，越需要额外机制保证信息流、负载均衡和训练稳定。

Attention alternatives：从 full attention 到 hybrid state

本节解释 linear attention、recurrent form、Mamba-2、Gated Delta Net、hybrid attention 和 DeepSeek Sparse Attention。

术语消化：linear attention、state、hybrid、DSA

Linear attention：把 softmax attention 改写成可重排的核形式，使计算可用前缀状态累积。
Recurrent/state form：维护一个随位置更新的 state，生成或长上下文时不必显式保存所有 pairwise attention。
Hybrid attention：把 linear/state layers 和 full attention layers 交替使用，兼顾成本和质量。
DSA：DeepSeek Sparse Attention，先筛选重要历史位置，再做稀疏 attention。

\[ \mathrm{Attn}(Q,K,V)=\mathrm{softmax}(QK^\top)V. \]

线性/稀疏变体都在改写这个式子的成本结构：要么避免完整 \(n\times n\) attention matrix，要么只选少量历史位置。

Slide 4: Linear attention

展开说明：Consider the usual attention operation: \(Q\in\mathbb{R}^{n\times d_k}\), \(K\in\mathbb{R}^{n\times d_k}\), \(V\in\mathbb{R}^{n\times d_v}\).

读图：Slide 4 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 5: Recurrent form of linear attention

展开说明：Recall that in purely linear attention, we consider the reordering

读图：Slide 5 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 6: Minimax M1

展开说明：Minimax M1 (and minimax-text-01) use a 7-to-1 hybrid (7 linear, 1 full) linear attention.

Slide 7: From linear attention to Mamba-2

展开说明：Let’s generalize linear attention a little bit and add per-position weights..

读图：Slide 7 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 8: Nemotron 3

展开说明：Mamba attention hybrid (3-1 ish) – comparable (or better) pref to other similar models

Slide 9: Gated delta net (and friends)

展开说明：Let’s generalize things further – gate the input and selectively erase the state.

读图：Slide 9 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 10: Qwen 3.5 / Qwen Next

展开说明：The newest qwen are 3-1 GDN / Attention hybrids.

Slide 11: Hybrid performance

展开说明：Not many controlled ablations, but some evidence of low losses at small hybrid ratios

读图：Slide 11 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 12: Alternative to hybrids: sparse adaptation

展开说明：Instead of attending to every token, do sparse attention (DSA)

Slide 13: DSA – Deepseek Sparse Attention (v3.2, GLM5)

展开说明：DSA – Deepseek Sparse Attention (v3.2, GLM5)

读图：Slide 13 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

本章小结

本节的共同线索是 selective computation：通过结构选择让 token 不必总是访问所有历史或所有参数。但选择性越强，越需要额外机制保证信息流、负载均衡和训练稳定。

MoE 为什么流行：更多参数，不一定更多 FLOPs

本节解释 MoE 的核心动机：同样每 token FLOPs 下增加参数容量，并通过 expert parallelism 扩展到多设备。

什么是 MoE

Mixture of Experts 把 dense MLP 替换成多个 experts，并由 router 为每个 token 选择少量 experts。总参数量可以很大，但每个 token 只激活少量参数，因此每 token FLOPs 可控。

Slide 14: Mixture of experts

展开说明：GPT4 (?)

Slide 15: What’s a MoE?

展开说明：[Fedus et al 2022]

Slide 16: Why are MoEs getting popular?

展开说明：Same FLOP, more param does better

读图：Slide 16 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 17: Why are MoEs getting popular?

展开说明：Faster to train MoEs

读图：Slide 17 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 18: Why are MoEs getting popular?

展开说明：Highly competitive vs dense equivalents

读图：Slide 18 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 19: Why are MoEs getting popular?

展开说明：Parallelizable to many devices

读图：Slide 19 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 20: Some MoE results – from the west

展开说明：MoEs are most of the highest-performance open models, and are quite quick

读图：Slide 20 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 21: Earlier MoE results from Chinese groups – Qwen

展开说明：Chinese LLM companies are also doing quite a bit of MoE work on the smaller end

Slide 22: Earlier MoE results from Chinese groups - DeepSeek

展开说明：There’s also some good recent ablation work on MoEs showing they’re generally good

Slide 23: Recent MoE results – DeepSeek v3

展开说明：Recent MoE results – DeepSeek v3

读图：Slide 23 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 24: Why haven’t MoEs been more popular?

展开说明：Infrastructure is complex / advantages on multi node

读图：Slide 24 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

本章小结

本节的共同线索是 selective computation：通过结构选择让 token 不必总是访问所有历史或所有参数。但选择性越强，越需要额外机制保证信息流、负载均衡和训练稳定。

Routing：token 如何选择 experts

本节解释 routing function、top-k routing、token-choice、shared experts、fine-grained experts 和近期模型配置。

术语消化：router、top-k、shared experts、fine-grained experts

Router 为每个 token 产生 expert scores；top-k routing 选择分数最高的 k 个 experts；shared experts 总是被激活，提供公共容量；fine-grained experts 把专家切得更小更多，提高组合灵活性但增加路由和通信复杂度。

\[ \mathrm{MoE}(x)=\sum_{e\in \mathrm{TopK}(r(x))} g_e(x)E_e(x), \]

其中 \(r(x)\) 是 router logits，\(g_e(x)\) 是路由权重，\(E_e\) 是第 \(e\) 个 expert。

Slide 25: What MoEs generally look like

展开说明：Typical: replace MLP with MoE layer Less common: MoE for attention heads

Slide 26: MoE – what varies?

展开说明：Routing function.

Slide 27: Routing function - overview

展开说明：Many of the routing algorithms boil down to ‘choose top k’

Slide 28: Routing type

展开说明：Almost all the MoEs do a standard ‘token choice topk’ routing. Some recent ablations

Slide 29: Common routing variants in detail

展开说明：Used in most MoEs

Slide 30: Other routing methods

展开说明：RL to learn routes Used in some of the earliest work

Slide 31: Top-K routing in detail.

展开说明：Most papers do the old and classic top-k routing. How does this work?

读图：Slide 31 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 32: Recent variations from DeepSeek and other Chinese LMs

展开说明：Smaller, larger number of experts + a few shared experts that are always on.

读图：Slide 32 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 33: Various ablations from the DeepSeek paper

展开说明：More experts, shared experts all seem to generally help

读图：Slide 33 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 34: Ablations from OlMoE

展开说明：Gains from fine-grained experts, none from shared experts.

读图：Slide 34 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 35: Expert routing setups for recent MoEs

展开说明：Model Routed Active Shared Fine-grained ratio

读图：Slide 35 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

本章小结

本节的共同线索是 selective computation：通过结构选择让 token 不必总是访问所有历史或所有参数。但选择性越强，越需要额外机制保证信息流、负载均衡和训练稳定。

Training MoEs：负载均衡、随机路由与系统效率

本节处理 MoE 训练的核心难题：既要稀疏计算，又要专家负载均衡，还要保持可训练稳定。

MoE 训练的核心矛盾

MoE 想要稀疏激活来省 FLOPs，但系统效率要求 experts 被均匀使用。如果 router 总把 token 发给少数 experts，就会出现负载不均、通信拥塞、部分 experts 欠训练。

Slide 36: How do we train MoEs?

展开说明：Major challenge: we need sparsity for training-time efficiency…

Slide 37: RL for MoEs

展开说明：RL via REINFORCE does work, but not so much better that it’s a clear win

Slide 38: Stochastic approximations

展开说明：From Shazeer et al 2017 – routing decisions are stochastic with gaussian perturbations.

Slide 39: Stochastic approximations

展开说明：Stochastic jitter in Fedus et al 2022. This does a uniform multiplicative perturbation for the

Slide 40: Heuristic balancing losses

展开说明：Another key issue – systems efficiency requires that we use experts evenly..

读图：Slide 40 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 41: Example from deepseek (v1-2)

展开说明：Per-expert balancing – same as the switch transformer

读图：Slide 41 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 42: DeepSeek v3 variation – per-expert biases

展开说明：Set up a per-expert bias (making it more likely to get tokens) and use online learning

读图：Slide 42 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 43: What happens when removing load balancing losses?

展开说明：What happens when removing load balancing losses?

读图：Slide 43 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

本章小结

本节的共同线索是 selective computation：通过结构选择让 token 不必总是访问所有历史或所有参数。但选择性越强，越需要额外机制保证信息流、负载均衡和训练稳定。

MoE systems side：expert parallelism 与通信

本节解释 MoE 作为系统问题：all-to-all dispatch、expert parallelism、通信压缩和随机性。

Slide 44: Training MoEs – the systems side

展开说明：MoEs parallelize nicely – Each FFN Enables additional kinds of parallelism

读图：Slide 44 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 45: Training MoEs – the systems side

展开说明：MoE routing allows for parallelism, but also some complexities

读图：Slide 45 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 46: MoE parallelism and architecture modifications

展开说明：New ideas from Nemotron 3 – down-projecting the activations to reduce communication

读图：Slide 46 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 47: Fun side issue – stochasticity of MoE models

展开说明：MoEs can have additional stochasticity beyond normal models..

本章小结

本节的共同线索是 selective computation：通过结构选择让 token 不必总是访问所有历史或所有参数。但选择性越强，越需要额外机制保证信息流、负载均衡和训练稳定。

MoE 稳定性、fine-tuning 与 upcycling

本节解释 router z-loss、fine-tuning overfit、dense-to-MoE upcycling。

Slide 48: Issues with MoEs - stability

展开说明：[Zoph 2022]

读图：Slide 48 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 49: Z-loss stability for the router

展开说明：What happens when we remove the z-loss?

读图：Slide 49 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 50: Issues with MoEs – fine-tuning

展开说明：Sparse MoEs can overfit on smaller fine-tuning data

读图：Slide 50 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 51: Other training methods - upcycling

展开说明：Can we use a pre-trained LM to initialize a MoE?

读图：Slide 51 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 52: Upcycling example - MiniCPM

展开说明：Uses the MiniCPM model (topk=2, 8 experts, 4B active params).

Slide 53: Upcycling example – Qwen MoE

展开说明：Qwen MoE – Initialized from the Qwen 1.8B model top-k=4, 60 experts w/ 4 shared.

本章小结

本节的共同线索是 selective computation：通过结构选择让 token 不必总是访问所有历史或所有参数。但选择性越强，越需要额外机制保证信息流、负载均衡和训练稳定。

DeepSeek MoE case study：MoE、MLA、MTP 的组合

本节把 DeepSeek v1/v2/v3 作为案例，观察 shared experts、fine-grained experts、MLA 和 MTP 如何组合。

first-use glossary：MLA 与 MTP

MLA 是 Multi-head Latent Attention，把 K/V cache 压缩为低维 latent 后再投影恢复，降低长上下文推理内存。MTP 是 Multi-Token Prediction，让轻量模块预测多个未来 token，可用于改善训练信号或推理草稿。DeepSeek v3 把 MoE、MLA、MTP 等选择组合成一套系统 recipe。

Slide 54: DeepSeek MoE v1-v2-v3

展开说明：To wrap up, we’ll walk through the DeepSeek MoE architecture.

读图：Slide 54 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 55: DeepSeek MoE v2

展开说明：V2 (236B – 21 active):

读图：Slide 55 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 56: DeepSeek MoE v3

展开说明：V2 (671B – 37 active):

读图：Slide 56 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 57: Bonus: What else do you need to make DeepSeek MoE v3?

展开说明：MLA : Multihead, latent attention

读图：Slide 57 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 58: What else do you need to make DeepSeek MoE v3?

展开说明：Basic idea: express the Q, K, V as functions of a lower-dim, ‘latent’ activation

读图：Slide 58 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

Slide 59: What else do you need to make DeepSeek MoE v3?

展开说明：MTP: Have small, lightweight models that predict multiple steps ahead

读图：Slide 59 应该怎么看

这页是机制或证据页。先看它比较的是 compute、参数量、routing、负载均衡还是通信；再看结论支持的是质量提升、训练速度、推理成本还是系统复杂度。MoE 和 attention alternatives 的图常把模型结构和系统代价混在一起，读图时要分清“算法机制”和“硬件执行成本”。

本章小结

本节的共同线索是 selective computation：通过结构选择让 token 不必总是访问所有历史或所有参数。但选择性越强，越需要额外机制保证信息流、负载均衡和训练稳定。

总结：Selective computation 的两条路

最后把 attention alternatives 和 MoE 统一为 selective computation：不是所有 token 都需要看所有历史，也不是所有 token 都需要激活所有参数。

Slide 60: MoE summary

展开说明：MoEs take advantage of sparsity: not all inputs need the full model.

本章小结

本节的共同线索是 selective computation：通过结构选择让 token 不必总是访问所有历史或所有参数。但选择性越强，越需要额外机制保证信息流、负载均衡和训练稳定。

综合对照：Attention alternatives 与 MoE 的共同结构

方向	省什么	新增什么问题
Linear/state attention	省完整 \(n^2\) attention matrix 和长上下文读写	状态表达力、长程依赖、与 full attention 的混合比例。
Sparse/local attention	省远距离 token 的 attention 成本	全局信息如何周期性传播，哪些 token 应该被选中。
MoE	省每 token 激活全部参数的 FLOPs	routing、load balancing、all-to-all、expert undertraining、fine-tuning 稳定性。
MLA/MTP 等扩展	省 KV cache 或改善多 token 预测	与 RoPE/attention 几何、推理系统、训练目标的兼容性。

最终 takeaway

Lecture 4 的核心不是“linear attention vs MoE 谁更好”，而是学会看 selective computation 的三件事：选择规则是什么、节省了哪种资源、为了这个节省引入了什么新的系统或训练问题。

总结与延伸

Attention alternatives 和 MoE 是现代 LLM 架构里最重要的两类非 dense 思路。前者改变 token 如何访问上下文，后者改变 token 如何访问参数。二者都能带来 scale 或 inference efficiency 的收益，但都把问题转移到 routing、state design、load balancing、communication 和 stability 上。

拓展阅读

Linear attention, Mamba-2, Gated DeltaNet, DeepSeek Sparse Attention.
Switch Transformer, GShard, DeepSeek MoE, OlMoE, Mixtral, Qwen MoE.
JAX Scaling Book sections on attention and inference systems.