[CS25] Transformers in Audio/Speech/Music — Prateek Verma

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford CS25
日期	2021

引言：音频领域的 Transformer

Prateek Verma 来自 Stanford，介绍了 Transformer 在音频、语音和音乐领域的应用。音频处理与文本/图像有本质差异：音频信号是高采样率的时间序列（如 16kHz 语音、48kHz 音乐），这对 Transformer 的序列长度提出了极大挑战。

音频表示的特殊性

原始波形：每秒数万个采样点，序列极长
频谱图/梅尔频谱：时频表示，类似于图像，但时间轴有因果性
离散音频 token：通过 VQ-VAE 等方法将音频离散化为 token 序列

从不同视角理解 Transformer

Prateek 提供了 Transformer 自注意力的一个有趣视角：

自注意力 vs. 小波变换

传统信号处理使用固定的基函数（如小波、傅里叶基）来分析信号。Transformer 的自注意力可以看作一种自适应的基函数——它根据输入数据动态决定哪些时间点/频率点需要更多关注。这使得 Transformer 在处理非平稳信号时天然优于固定基方法。

本章小结

Transformer 通过自适应注意力机制，在音频领域提供了超越传统信号处理方法的灵活性。

采样级别的音频语言建模

SampleRNN 到 Transformer

早期的音频生成模型（如 WaveNet、SampleRNN）逐采样点自回归生成，速度极慢。Transformer 可以在以下层面进行“语言建模”：

采样级别：直接预测下一个音频采样值（精度最高但最慢）
帧级别：预测频谱帧（平衡精度与效率）
Token 级别：先将音频编码为离散 token，再做语言建模（最高效）

上下文长度的挑战

音频的上下文长度瓶颈

以 16kHz 采样率的 100ms 音频为例，就有 1600 个采样点。标准注意力需要 \(1600^2 \approx 2.56 \times 10^6\) 的内存。对于几秒的音频片段，这个问题更加严峻。解决方案包括：

稀疏注意力模式
线性注意力近似
分层处理（先局部再全局）
音频 tokenization 降低序列长度

本章小结

音频的高采样率对 Transformer 的上下文长度提出了独特挑战，催生了多种高效注意力方案。

语音和音乐的 Transformer 应用

语音识别与合成

ASR（自动语音识别）：Transformer 已成为主流架构（如 Whisper）
TTS（文本到语音）：Tacotron 2 + Transformer、VITS 等
语音翻译：端到端的跨语言语音转换

音乐生成与理解

Music Transformer（Huang et al.）：基于相对注意力的音乐生成
Jukebox（OpenAI）：使用 VQ-VAE + Transformer 的原始音频音乐生成
音乐信息检索：节拍检测、乐器识别、情感分析

研究中的诚实性

Prateek 引用 DeepMind 研究者的观点，强调在发表论文时应诚实报告训练技巧的贡献——很多时候性能提升来自于工程技巧而非模型创新。区分“模型实际贡献”和“训练技巧贡献”对于领域的健康发展至关重要。

本章小结

Transformer 在语音和音乐领域的应用正在快速发展，从识别到生成全面覆盖。

从研究原型到音频系统

表示粒度决定系统边界

同样是“用 Transformer 做音频”，系统设计的关键差异往往不在骨干网络本身，而在于音频先被切成什么样的表示。如果直接在 waveform 上建模，模型会保留最细腻的时域信息，但训练成本和上下文长度都会急剧上升；如果先转为频谱或离散 audio token，训练和推理会稳定得多，但系统的上限也受到 tokenizer 质量约束。

先压缩，再建模，最后再回看失真

今天多数可扩展音频系统的共同策略是：先把连续信号压缩成更短的序列，再让 Transformer 专注于长程依赖。真正的工程问题变成了两件事：一是压缩是否保留任务所需的信息，二是生成后是否会引入可感知的伪影。

在语音场景里，这意味着系统需要同时衡量字词正确率、说话人一致性和延迟；在音乐场景里，则要兼顾节奏结构、和声连续性和长时间重复带来的审美疲劳。Prateek 这类课程的价值，在于提醒我们不要把“模型分数”误当作“用户体验”。

训练、评测与上线的三重约束

音频模型一旦进入产品环节，会立即遇到三个约束：

训练约束：多机训练时，长序列会导致显存碎片和吞吐下降，batch size 很容易失控。
评测约束：自动指标往往只能覆盖一部分质量维度，例如 WER 关注识别错误，却无法衡量语气、韵律和音乐表现力。
上线约束：交互式语音系统需要低延迟流式生成，而音乐创作更强调长时一致性，两者的最优架构往往不同。

音频团队常见的评测分层

成熟团队通常会把评测拆成三层：第一层是离线客观指标，如 WER、FAD、重建误差；第二层是专家标注，如音色自然度、节奏稳定性、情感一致性；第三层是在线交互指标，如首包延迟、用户中断率、复听率。只有三层都稳定，系统才真正可用。

本章小结

音频 Transformer 真正的难点不是“能不能生成声音”，而是如何在表示压缩、可训练性和最终听感之间取得平衡。

未来趋势：统一的音频基础模型

语音、音乐与环境声音正在合流

过去研究常把 ASR、TTS、music generation 和 audio tagging 分开讨论，但近年的趋势是用同一套 backbone 统一处理不同模态的声音。原因很直接：说话人的语气、音乐的节奏、环境的事件结构，本质上都包含多尺度时间依赖，只是监督信号不同。

“The interesting question is not whether Transformer works for audio, but what representation makes audio look learnable.”

这也解释了为什么 Whisper、Jukebox 以及后续多模态模型虽然任务不同，却都在探索同一件事：如何让声音变成适合序列建模的对象。

需要警惕的误区

参数更大不等于音频体验更好

音频系统特别容易出现“客观指标提升但主观体验下降”的情况。例如，更大的模型可能降低了识别错误，却引入更机械的停顿；更长的音乐上下文也可能带来更严重的重复。对于音频，感知质量和结构质量必须一起看。

因此，一个稳健的研究路线通常是：先确认表示和评测闭环是否成立，再谈模型缩放。否则，团队可能会在错误的目标函数上不断加算力。

本章小结

统一音频基础模型是一个合理方向，但它要求研究者同时理解序列建模、感知评测和交互式系统约束。

总结与延伸

音频领域的 Transformer 应用展示了这一架构的通用性，同时也揭示了其在处理长序列信号时的独特挑战。随着高效注意力机制和音频 tokenization 方法的发展，Transformer 在音频领域的能力将持续提升。

拓展阅读

Huang et al., “Music Transformer: Generating Music with Long-Term Structure,” ICLR 2019
Dhariwal et al., “Jukebox: A Generative Model for Music,” arXiv 2020
Radford et al., “Robust Speech Recognition via Large-Scale Weak Supervision (Whisper),” 2022