[CS25] Transformers in Vision — Lucas Beyer, Google Brain
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于 Stanford CS25 公开课程资料整理 |
| 来源 | Stanford CS25 Vision Series |
| 日期 | 2022年3月1日 |
![[CS25] Transformers in Vision — Lucas Beyer, Google Brain](cover.jpg)
Vision Transformer 的目标与测量标准
引入通用视觉表征的价值命题
Lucas Beyer 设问:为什么视觉研究者仍然在用 ImageNet 训练模型却直接拿去做卫星图像、医学切片或计数任务?答案在于表征泛化的缺失——传统模型在尘埃未落定的新领域里仍需要从零训练。讲座用 VTAB(Visual Task Adaptation Benchmark)作为统一尺子,强调少量样本可适应能力才是真正的实用标准。

VTAB 的三个核心维度
- 多样任务集:包含自然图像、专业图像与非分类任务;
- 限样适应:每个任务只提供极少 labeled samples;
- 平均分数:用平均性能而非单一任务决定模型好坏。
教学逻辑
讲座结构自上而下:先明确“什么是好表征”,再讨论“如何通过规模化与架构设计获得”,接下来讲“如何评估/部署”并在结尾提出风险与开放问题。
Transition to Next Sections
由此可见,本节关注的问题是“目标与度量”。接下来会依次谈论 预训练规模化→架构创新→迁移策略→效率与风险→工程监控 四个关键环节。
本章小结
本章锁定通用视觉表征的问题域,提出 VTAB 等多维度指标,明确后续讨论的教学逻辑:度量、预训练、架构、迁移、部署。
规模化预训练:数据、模型与耐心
BiT 的实证教训
Google Brain 的 Big Transfer(BiT)项目以 ImageNet-21k、JFT-300M 等海量数据配合 ResNet-152/ResNet-50 的方法,得出“数据+模型+训练周期”缺一不可的经验。Lucas 强调:训练早期 loss 不下降也要耐心,只有在足够 epochs 后,deep model 才能显现优势。
BiT 的三条定律
- 增加数据必须伴随更大模型容量;
- 无需人工微调的 checkpoint 可以覆盖更多下游任务;
- 训练曲线应提前观察 robustness;在 ObjectNet 上 BiT 模型展现出强鲁棒性。
挑战:数据泄露与近重复
Lucas 提醒,在大规模预训练中,必须排查下游测试集是否出现在 pre-train set 里。利用 near-duplicate detection kernel 能有效过滤,避免在 VTAB 里因泄露获得虚假的“百宝箱”优势。
数据泄露风险
使用 JFT、ImageNet1k/21k 等数据集时应持续检查:
- 图像哈希重复:去除与下游测试集重复的样本;
- 标签一致性:避免错误标签在多个数据集中反复传播;
- 法律合规:确认数据采集与使用的授权范围。
本章小结
规模化预训练尽管带来 VTAB 上的 progress,但必须与数据审查、训练耐心与鲁棒性监控并驾齐驱。
Vision Transformer 的建模与细节
Patch-based 序列建模
ViT 的核心创新是将图像切成 patch,并平铺喂入 Transformer。每个 patch 被视为 token,通过线性投影后加入 position embedding,再与 [CLS] token 共同输入 Transformer。

ViT 与 CNN 的差异
- 感受野:ViT token 全局交互,不依赖局部卷积;
- 位置编码:需要显式 position embedding 以保留空间;
- 数据需求:ViT 只在 10M+ 图像时才超过 CNN。
数据规模对比
ViT 在 ImageNet-1k 上表现不如 ResNet,但在 ImageNet-21k、JFT-300M 上开始领先。手头表格总结了不同数据-模型组合的 performance tipping point:
| 组合 | 数据规模 | 观察 |
|---|---|---|
| ViT-B/16 + IN-1k | 1.3M | 分数略低于 ResNet-50 |
| ViT-B/16 + IN-21k | 14M | 与 ResNet-152 持平 |
| ViT-L/16 + JFT-300M | 300M | 超越所有 ResNet,鲁棒性更强 |
本章小结
ViT 强调序列化视觉,只有在巨量数据与模型容量配合下才显优势,本章概括了 patch token 化、位置编码与规模敏感性。
迁移策略与效率
Fine-tune vs. Linear Probe
讲座评估了两种迁移方式在 VTAB 上的差距:full fine-tuning 虽然性能最好,但时间代价高;linear probe 结合 projector 既保持部分性能又节省 compute。
迁移效率三法
- Linear probe:冻结主干,仅训练一个线性分类头;
- Adapter tuning:插入小模块,仅更新少数参数;
- Prompt tuning(Vision prompt):引入 learnable tokens,保持 backbone freeze。
案例:卫星图像任务
在 VTAB 的 satellite task 下,ViT 的 backbone 使用 linear probe 后相比 ResNet 仍有 3% 提升。Lucas 解释为 Transformer 更强的 global attention 能识别长距离光谱模式。
本章小结
迁移时务必权衡 compute 与 accuracy,ViT 在 linear probe 甚至 adapter 设置下仍有优势,适合工程级 deployment。
系统工程与风险管理
工程约束
Autonomy 的部署还需面对工程约束,包括训练预算、推理 latency 与模型可解释性。讲者建议:
- 使用 model distillation 缩小 ViT 以适配边缘设备;
- 采用 mixed precision + gradient checkpoint 降低 GPU 内存;
- 为 downstream 任务保留 viewpoint-specific metrics(如 clarity, blur)。
不可忽视的风险
- Large model 对 rare artifact 的依赖:需要增强数据多样性;
- 解释能力差:Transformer 内部 attention 仍难解释,可以加 attention rollout;
- Energy cost:部署 JFT-scale 模型需评估电力与碳足迹。
运维:监控 VTAB drift
建议 setup drift detection:在每次模型 update 之后,重跑 VTAB sample tasks,观察 \(\Delta\) performance。若 drift 超过阈值,先 rollback 再分析训练 log。
Drift awareness checklist
- 记录 pre-training dataset 版本与 sampling policy;
- 对 drift task 设立 guardrail(如 success drop > 2% 触发报警);
- 保留 auto-rollback script,便于回到最后 stable checkpoint。
本章小结
工程部署需要兼顾 latency、energy 与 interpretability,与此同时用 drift monitoring 保证长期性能,避免“scale drift”。
开放问题与未来方向
数据高光与预训练上限
ViT 展现出在亿级数据上的潜力,但也引发问题:人力是否还能持续获取这些数据?是否能通过 synthetic data + self-training 替代?Beyer 提出未来需要进一步发展数据高光 detection 与 low-resource augmentation 方法。
多模态与视频拓展
讲者还讨论了将 ViT 扩展到视频、多模态任务的可能性,关键在于如何处理 temporal coherence 与 cross-modal alignment。比如,使用 cross attention 连接 video frame 与 audio/ language cost。
本章小结
虽然 ViT 取得显著成绩,但数据获取、能源消耗与多模态拓展仍是短期内需解决的开放问题。
总结与延伸
核心总结表
| 维度 | 核心洞察 | 实践建议 |
|---|---|---|
| 目标与度量 | VTAB 提供多样任务与少样测评 | 结合 few-shot metric 评估 backbone; |
| 规模化预训练 | BiT 说明数据、模型、训练要一起 enlarge | 增量训练前先做泄露检测与 robustness probe; |
| 架构创新 | ViT 扁平化视觉 token 化需要大量数据 | 在 resource-bounded settings 使用 adapter/linear probe; |
| 迁移与效率 | Transformer 在 linear probe 下仍优于 CNN | 采用 adapter/prompt 避免 full fine-tune; |
| 工程与风险 | 需控制 energy/dataset drift 与 explainability | 建立 drift dashboard + rollback pipeline; |
进一步阅读
- Beyer et al., “Are we done with ImageNet?” NeurIPS Workshop 2021(解释 VTAB)
- Kolesnikov et al., “Big Transfer (BiT): General Visual Representation Learning,” ECCV 2020
- Dosovitskiy et al., “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,” ICLR 2021
- Zhai et al., “Scaling Vision Transformers,” CVPR 2022
- Touvron et al., “Training data-efficient image transformers & distillation through attention,” ICML 2021
本章小结
通过目标、规模、架构、迁移、工程与未来展望六个维度,课程勾勒出通用视觉表征的研究与部署路线图,同时提醒我们要持续监控 drift 与投入成本。