RoPE 几何视角与 Qwen3 RoPE 计算细节

引言：Multi-Head Self-Attention 的位置不敏感性

Multi-Head Self-Attention 本身是位置不敏感的。如果不引入位置编码，它相当于一个能力更强的词袋模型（bag of words）。RoPE（Rotary Position Embedding）通过旋转矩阵巧妙地将位置信息注入到注意力计算中。

RoPE 的核心思想

通过赋予 \(Q\) 和 \(K\) 与绝对位置相关的旋转角度，利用旋转矩阵的数学特性，最终实现相对位置编码。这种相对性不是预先构建的，而是数学上自然推导出来的。

对位置 \(m\) 的 Query 施加旋转矩阵 \(R_m\)，对位置 \(n\) 的 Key 施加 \(R_n\)：

\[ \text{score}(m, n) = (R_m q)^T (R_n k) = q^T R_m^T R_n k = q^T R_{n-m} k \]

关键性质：\(R_m^T R_n = R_{n-m}\)，旋转矩阵的转置等于逆旋转，两个旋转的组合只依赖位置差 \(n - m\)。

相对性是推演出来的

我们事先只需要为每个绝对位置计算旋转矩阵，相对位置编码是数学推导的自然结果，不需要显式构造。

RoPE 在 embedding 向量的不同 2D 子空间（subspace）上施加不同频率的旋转：

\[ \theta_i = \text{base}^{-2i/d} \]

\(\theta_i\) 随 \(i\) 增大呈指数级衰减，取 \(\log\) 后呈线性下降。

RoPE 通过绝对位置的旋转矩阵实现相对位置编码，\(\theta_i\) 控制了各子空间的旋转频率。base 越大，低频子空间的旋转越慢，有利于长距离建模。

\(\theta_i\) 的指数衰减意味着 RoPE 具有多尺度特性：

RoPE 的频谱

标准 RoPE 的 base = 10000，而 Qwen3 系列使用 base = 1000000。更大的 base 意味着所有频率都更低，低频子空间的旋转更加缓慢，有利于捕获更长距离的依赖关系，支持更大的 context window。

在之前介绍 LLaMA 时使用的是朴素 interleaved 版本的 RoPE 方案（将相邻维度视为一个 2D 子空间）。Qwen3 的实现在子空间划分上可能有所不同，需要查看具体代码确认。

RoPE 的几何本质是在 embedding 的不同 2D 子空间上施加不同速率的旋转。高频子空间负责短距离语法关系，低频子空间负责长距离语义关系。Qwen3 通过增大 base 来支持更长的上下文窗口。

视频最后留了一个很重要的工程暗示：把 base 从 10000 调到 1000000 只是长上下文策略的一部分。模型是否真能稳定利用更长 context，还取决于训练时看到的长度分布、KV cache 的实现、以及 attention 在超长距离上的数值稳定性。

RoPE 参数之外，长上下文能力还受多项工程因素共同决定

为什么几何理解有价值

一旦从几何和频谱角度理解了 RoPE，就更容易判断长上下文问题是“编码本身不够好”，还是“训练和推理没有把编码的潜力真正释放出来”。这也是很多模型报告会同时讨论 RoPE、数据长度分布和推理优化的原因。

RoPE 的公式解释了位置关系如何编码进 attention，但真正的长上下文能力仍然是“编码 + 训练 + 推理实现”的共同产物。理解这一点，有助于正确解读 Qwen3 这类模型的配置选择。

Su et al., “RoFormer: Enhanced Transformer with Rotary Position Embedding” (2021)
Qwen3 技术报告中关于 RoPE 配置的说明
系列前置视频：LLaMA 2 中 RoPE 的基础介绍