[CS25] Transformers in Audio/Speech/Music — Prateek Verma
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | Stanford CS25 |
| 日期 | 2021 |
![[CS25] Transformers in Audio/Speech/Music — Prateek Verma](cover.jpg)
引言:音频领域的 Transformer
Prateek Verma 来自 Stanford,介绍了 Transformer 在音频、语音和音乐领域的应用。音频处理与文本/图像有本质差异:音频信号是高采样率的时间序列(如 16kHz 语音、48kHz 音乐),这对 Transformer 的序列长度提出了极大挑战。
音频表示的特殊性
- 原始波形:每秒数万个采样点,序列极长
- 频谱图/梅尔频谱:时频表示,类似于图像,但时间轴有因果性
- 离散音频 token:通过 VQ-VAE 等方法将音频离散化为 token 序列
从不同视角理解 Transformer
Prateek 提供了 Transformer 自注意力的一个有趣视角:
自注意力 vs. 小波变换
传统信号处理使用固定的基函数(如小波、傅里叶基)来分析信号。Transformer 的自注意力可以看作一种自适应的基函数——它根据输入数据动态决定哪些时间点/频率点需要更多关注。这使得 Transformer 在处理非平稳信号时天然优于固定基方法。
本章小结
Transformer 通过自适应注意力机制,在音频领域提供了超越传统信号处理方法的灵活性。
采样级别的音频语言建模
SampleRNN 到 Transformer
早期的音频生成模型(如 WaveNet、SampleRNN)逐采样点自回归生成,速度极慢。Transformer 可以在以下层面进行“语言建模”:
- 采样级别:直接预测下一个音频采样值(精度最高但最慢)
- 帧级别:预测频谱帧(平衡精度与效率)
- Token 级别:先将音频编码为离散 token,再做语言建模(最高效)
上下文长度的挑战
音频的上下文长度瓶颈
以 16kHz 采样率的 100ms 音频为例,就有 1600 个采样点。标准注意力需要 \(1600^2 \approx 2.56 \times 10^6\) 的内存。对于几秒的音频片段,这个问题更加严峻。解决方案包括:
- 稀疏注意力模式
- 线性注意力近似
- 分层处理(先局部再全局)
- 音频 tokenization 降低序列长度
本章小结
音频的高采样率对 Transformer 的上下文长度提出了独特挑战,催生了多种高效注意力方案。
语音和音乐的 Transformer 应用
语音识别与合成
- ASR(自动语音识别):Transformer 已成为主流架构(如 Whisper)
- TTS(文本到语音):Tacotron 2 + Transformer、VITS 等
- 语音翻译:端到端的跨语言语音转换
音乐生成与理解
- Music Transformer(Huang et al.):基于相对注意力的音乐生成
- Jukebox(OpenAI):使用 VQ-VAE + Transformer 的原始音频音乐生成
- 音乐信息检索:节拍检测、乐器识别、情感分析
研究中的诚实性
Prateek 引用 DeepMind 研究者的观点,强调在发表论文时应诚实报告训练技巧的贡献——很多时候性能提升来自于工程技巧而非模型创新。区分“模型实际贡献”和“训练技巧贡献”对于领域的健康发展至关重要。
本章小结
Transformer 在语音和音乐领域的应用正在快速发展,从识别到生成全面覆盖。
从研究原型到音频系统
表示粒度决定系统边界
同样是“用 Transformer 做音频”,系统设计的关键差异往往不在骨干网络本身,而在于音频先被切成什么样的表示。如果直接在 waveform 上建模,模型会保留最细腻的时域信息,但训练成本和上下文长度都会急剧上升;如果先转为频谱或离散 audio token,训练和推理会稳定得多,但系统的上限也受到 tokenizer 质量约束。
先压缩,再建模,最后再回看失真
今天多数可扩展音频系统的共同策略是:先把连续信号压缩成更短的序列,再让 Transformer 专注于长程依赖。真正的工程问题变成了两件事:一是压缩是否保留任务所需的信息,二是生成后是否会引入可感知的伪影。
在语音场景里,这意味着系统需要同时衡量字词正确率、说话人一致性和延迟;在音乐场景里,则要兼顾节奏结构、和声连续性和长时间重复带来的审美疲劳。Prateek 这类课程的价值,在于提醒我们不要把“模型分数”误当作“用户体验”。
训练、评测与上线的三重约束
音频模型一旦进入产品环节,会立即遇到三个约束:
- 训练约束:多机训练时,长序列会导致显存碎片和吞吐下降,batch size 很容易失控。
- 评测约束:自动指标往往只能覆盖一部分质量维度,例如 WER 关注识别错误,却无法衡量语气、韵律和音乐表现力。
- 上线约束:交互式语音系统需要低延迟流式生成,而音乐创作更强调长时一致性,两者的最优架构往往不同。
音频团队常见的评测分层
成熟团队通常会把评测拆成三层:第一层是离线客观指标,如 WER、FAD、重建误差;第二层是专家标注,如音色自然度、节奏稳定性、情感一致性;第三层是在线交互指标,如首包延迟、用户中断率、复听率。只有三层都稳定,系统才真正可用。
本章小结
音频 Transformer 真正的难点不是“能不能生成声音”,而是如何在表示压缩、可训练性和最终听感之间取得平衡。
未来趋势:统一的音频基础模型
语音、音乐与环境声音正在合流
过去研究常把 ASR、TTS、music generation 和 audio tagging 分开讨论,但近年的趋势是用同一套 backbone 统一处理不同模态的声音。原因很直接:说话人的语气、音乐的节奏、环境的事件结构,本质上都包含多尺度时间依赖,只是监督信号不同。
“The interesting question is not whether Transformer works for audio, but what representation makes audio look learnable.”
这也解释了为什么 Whisper、Jukebox 以及后续多模态模型虽然任务不同,却都在探索同一件事:如何让声音变成适合序列建模的对象。
需要警惕的误区
参数更大不等于音频体验更好
音频系统特别容易出现“客观指标提升但主观体验下降”的情况。例如,更大的模型可能降低了识别错误,却引入更机械的停顿;更长的音乐上下文也可能带来更严重的重复。对于音频,感知质量和结构质量必须一起看。
因此,一个稳健的研究路线通常是:先确认表示和评测闭环是否成立,再谈模型缩放。否则,团队可能会在错误的目标函数上不断加算力。
本章小结
统一音频基础模型是一个合理方向,但它要求研究者同时理解序列建模、感知评测和交互式系统约束。
总结与延伸
音频领域的 Transformer 应用展示了这一架构的通用性,同时也揭示了其在处理长序列信号时的独特挑战。随着高效注意力机制和音频 tokenization 方法的发展,Transformer 在音频领域的能力将持续提升。
拓展阅读
- Huang et al., “Music Transformer: Generating Music with Long-Term Structure,” ICLR 2019
- Dhariwal et al., “Jukebox: A Generative Model for Music,” arXiv 2020
- Radford et al., “Robust Speech Recognition via Large-Scale Weak Supervision (Whisper),” 2022