RoPE Attention 远程衰减推导
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | 五道口纳什 |
| 日期 | 2025 |

引言
上一期从几何视角介绍了 RoPE 的旋转频率与多尺度特性。本期深入推导 RoPE 的 Attention Score 随距离变化的数学表达式,回答一个核心问题:为什么 RoPE 可以同时编码短距离和长距离依赖?
\(θ_j\) 的指数衰减
回顾 RoPE 的频率参数: $$ \theta_j = \text{base}^{-2j/d} $$
对 \(\theta_j\) 取 log: $$ \log \theta_j = -\frac{2j}{d} \log(\text{base}) $$
这是关于 \(j\) 的线性函数,斜率为 \(-\frac{2\log(\text{base})}{d}\)。因此 \(\theta_j\) 本身是指数级衰减的。
Attention Score 的推导
Pre-Softmax Score 的展开
在 RoPE 下,位置 \(m\) 的 Query 与位置 \(n\) 的 Key 的 attention score(pre-softmax)为:
将 \(R_{n-m}\) 展开到各 2D 子空间,每个子空间 \(j\) 的贡献正比于:
核心公式
Attention score 正比于所有子空间的余弦函数之和: $$ s(m,n) \propto \sum_{j=0}^{d/2-1} \cos\big((m-n) \cdot \theta_j\big) $$ 每个子空间贡献一个不同频率的余弦波,频率由 \(\theta_j\) 决定。
距离 $ = m - n$ 的影响
令 \(\tau = m - n\) 为 token 间距离,分析 \(s(\tau)\) 的行为:
短距离(\(\tau\) 小):
- 所有子空间的 \(\cos(\tau \cdot \theta_j) \approx 1\)
- 各项正值叠加,score 很高
- 模型高度关注邻近 token
长距离(\(\tau\) 大):
- 高频子空间(\(\theta_j\) 大,\(j\) 小):\(\tau \cdot \theta_j\) 变化剧烈,\(\cos\) 值快速震荡
- 低频子空间(\(\theta_j\) 小,\(j\) 大):\(\tau \cdot \theta_j\) 变化缓慢,\(\cos\) 值缓慢下降
- 高频部分的剧烈震荡在求和时正负抵消
远程衰减的物理图像
RoPE 远程衰减的机制
RoPE 的长距离衰减是两个效应共同作用的结果:
- 高频维度的完全抵消:左侧子空间旋转剧烈,远距离时正负相消(类似波的干涉效应)
- 低频维度的缓慢下降:右侧子空间旋转缓慢,保留了远程的微弱关联
结合起来:RoPE 在数学上主要关注局部,但保留了远程能力。
这类似于物理学中的波干涉现象:不同频率的波在远处相互抵消,但某些特定频率(低频)仍能传播到远处。
极端情况分析
对于最右侧的子空间(\(j = d/2 - 1\)): $$ \theta_{d/2-1} = \text{base}^{-1} \approx \frac{1}{\text{base}} $$
如果 base = 10000,则 \(\theta \approx 10^{-4}\),波长极长。即使 \(\tau\) 很大,\(\tau \cdot \theta\) 的增长仍然非常缓慢,\(\cos(\tau \cdot \theta) \approx 1\)。这就是远程信息得以保留的原因。
本章小结
Attention score 是所有子空间余弦波的叠加。远距离时高频项抵消、低频项缓慢衰减,共同产生了 RoPE 的远程衰减特性。RoPE 天然实现了“关注局部 + 保留远程”的注意力模式。
\(θ_j\) 与旋转频率的关系
| 子空间位置 | \(j\) 值 | \(θ_j\) | 特性 |
|---|---|---|---|
| 左侧(低索引) | 小 | 大(高频) | 快速旋转,编码短距离 |
| 右侧(高索引) | 大 | 小(低频) | 缓慢旋转,编码长距离 |
RoPE 的多尺度编码
RoPE 不同维度上有不同的旋转频率。将 embedding 向量视为一个行向量时:
- 越左侧的 sub-space:频率越高,对相对位置越敏感
- 越右侧的 sub-space:频率越低,对相对位置越不敏感
这种多尺度特性是 RoPE 成功的关键。
总结与延伸
- Attention score 正比于 \(\sum_j \cos(\tau \cdot \theta_j)\),是多频余弦波的叠加
- 远距离时高频项相消(干涉效应),低频项缓慢衰减
- RoPE 天然实现了“局部优先 + 远程保留”的注意力模式
- 下一期将探讨 Attention Head 的模式识别与 Attention Sink 现象
拓展阅读
- Su et al., “RoFormer” 原始论文
- NIPS 2025 Best Paper: Gated Attention 与 Attention Sink
- Blog: “Understanding RoPE through the lens of signal processing”