【CS224N】Lec 8 - Self-Attention and Transformers

RNN 的问题

在 Transformer 被提出前, RNN 在 NLP 领域占有主导地位, 以下是它存在的一些问题

在 RNN 中, 对于距离较远的两个词语, 需要花费很长的时间计算

RNN 的前向/反向传播是按照顺序的, 不能跳步
因此无法并行运算

$../../source/CS224NLec 8 - Self-Attention and Transformers\_自注意力.png$

Attention 中, 相当于一个 query 会对所有 key 匹配相似度, 并将相似度作为权重, 对所有 value 值加权求和

Self-Attention 仅仅解决了内容问题, 但是没有关注到词语间的顺序问题
需要采取一些手段, 表示出每个词的位置信息

用三角函数(类似于傅里叶变换), 表示每个词语的位置编码
Transformer 中用的就是这种方法

用深度学习的方法, 学习出一个位置编码的表示

$$ m_{i}=MLP(output_{i})=W_2⋅ReLU(W_1⋅output_i+b_1)+b_2 $$

使用掩码自注意力机制

和前面一步步构建的自注意力块对比一下

$../../source/CS224NLec 8 - Self-Attention and Transformers\_多头自注意力.png$
这里的不同点在于"多头"

点乘之外, 对结果除以根号 d
因为当维度 d 增大后, 点乘一般也会相应增大, 导致进入 softmax 后的梯度会很小, 不利于更新计算

$$ X(i)=X^{(i−1)}+Layer(X^{(i−1)}) $$

当前层的输出 = 上一层输入 + 本层的运算结果

减少不同隐藏向量维度之间的无关方差
把每个输入向量归一化成均值为 0，标准差为 1，帮助模型更快、更稳定地收敛
LayerNorm 是对单个 token 的每一个维度做归一化，不依赖 batch。
$../../source/CS224NLec 8 - Self-Attention and Transformers\_层归一化.png$
加快收敛速度
避免激活值爆炸/消失
归一化梯度, 梯度更加问题
对于序列长度, batch size 不敏感