【CS336】Lec 3 - Architectures, hyperparameters

Transformer

原版 Transformer

$../../source/CS336Lec 3 - Architectures, hyperparameters\_原版.png$
这是最初的 Transformer 架构, 在 Attention is All You Need 文章中提出
历经多年研究和改进, 已经有了多种变体, 能力也有所提升

通用改进版 Transformer

$../../source/CS336Lec 3 - Architectures, hyperparameters\_改进版.png$
以下是和原版的一些区别:

LayerNorm 放在了模块的前端
位置编码采用 RoPE
前馈层用 SwiGLU 取代 ReLU
线性层去掉了偏置项

$../../source/CS336Lec 3 - Architectures, hyperparameters\_演变.png$
Tatsu 根据近些年最新的模型的一些论文, 统计出了一些表格, 里面有关于模型架构的一些信息, 可以直观的看出模型架构的演变, 以及各家的差异

架构差异

归一化的先后顺序

业界共识: 采用前归一化, 而非后归一化
$../../source/CS336Lec 3 - Architectures, hyperparameters\_归一化.png$
左侧是原始 Transformer, 右侧是改进后的版本, 使用前归一化
右侧的效果普遍更加, 当下的模型基本都采用这一方法
后归一化相对没有那么稳定, 因此需要谨慎设置 warmup 等策略, 以保证训练过程稳定