跳转至

[CS25] Transformers in Vision — Lucas Beyer, Google Brain

LaTeX 源码 · 备用 PDF · 观看视频

字段 内容
作者/整理 基于 Stanford CS25 公开课程资料整理
来源 Stanford CS25 Vision Series
日期 2022年3月1日

[CS25] Transformers in Vision — Lucas Beyer, Google Brain

Vision Transformer 的目标与测量标准

引入通用视觉表征的价值命题

Lucas Beyer 设问:为什么视觉研究者仍然在用 ImageNet 训练模型却直接拿去做卫星图像、医学切片或计数任务?答案在于表征泛化的缺失——传统模型在尘埃未落定的新领域里仍需要从零训练。讲座用 VTAB(Visual Task Adaptation Benchmark)作为统一尺子,强调少量样本可适应能力才是真正的实用标准。

课程封面回顾。

VTAB 的三个核心维度

  1. 多样任务集:包含自然图像、专业图像与非分类任务;
  2. 限样适应:每个任务只提供极少 labeled samples;
  3. 平均分数:用平均性能而非单一任务决定模型好坏。

教学逻辑

讲座结构自上而下:先明确“什么是好表征”,再讨论“如何通过规模化与架构设计获得”,接下来讲“如何评估/部署”并在结尾提出风险与开放问题。

Transition to Next Sections

由此可见,本节关注的问题是“目标与度量”。接下来会依次谈论 预训练规模化→架构创新→迁移策略→效率与风险→工程监控 四个关键环节。

本章小结

本章锁定通用视觉表征的问题域,提出 VTAB 等多维度指标,明确后续讨论的教学逻辑:度量、预训练、架构、迁移、部署。

规模化预训练:数据、模型与耐心

BiT 的实证教训

Google Brain 的 Big Transfer(BiT)项目以 ImageNet-21k、JFT-300M 等海量数据配合 ResNet-152/ResNet-50 的方法,得出“数据+模型+训练周期”缺一不可的经验。Lucas 强调:训练早期 loss 不下降也要耐心,只有在足够 epochs 后,deep model 才能显现优势。

BiT 的三条定律

  • 增加数据必须伴随更大模型容量;
  • 无需人工微调的 checkpoint 可以覆盖更多下游任务;
  • 训练曲线应提前观察 robustness;在 ObjectNet 上 BiT 模型展现出强鲁棒性。

挑战:数据泄露与近重复

Lucas 提醒,在大规模预训练中,必须排查下游测试集是否出现在 pre-train set 里。利用 near-duplicate detection kernel 能有效过滤,避免在 VTAB 里因泄露获得虚假的“百宝箱”优势。

数据泄露风险

使用 JFT、ImageNet1k/21k 等数据集时应持续检查:

  • 图像哈希重复:去除与下游测试集重复的样本;
  • 标签一致性:避免错误标签在多个数据集中反复传播;
  • 法律合规:确认数据采集与使用的授权范围。

本章小结

规模化预训练尽管带来 VTAB 上的 progress,但必须与数据审查、训练耐心与鲁棒性监控并驾齐驱。

Vision Transformer 的建模与细节

Patch-based 序列建模

ViT 的核心创新是将图像切成 patch,并平铺喂入 Transformer。每个 patch 被视为 token,通过线性投影后加入 position embedding,再与 [CLS] token 共同输入 Transformer。

ViT 架构示意(缩略图)。

ViT 与 CNN 的差异

  1. 感受野:ViT token 全局交互,不依赖局部卷积;
  2. 位置编码:需要显式 position embedding 以保留空间;
  3. 数据需求:ViT 只在 10M+ 图像时才超过 CNN。

数据规模对比

ViT 在 ImageNet-1k 上表现不如 ResNet,但在 ImageNet-21k、JFT-300M 上开始领先。手头表格总结了不同数据-模型组合的 performance tipping point:

组合 数据规模 观察
ViT-B/16 + IN-1k 1.3M 分数略低于 ResNet-50
ViT-B/16 + IN-21k 14M 与 ResNet-152 持平
ViT-L/16 + JFT-300M 300M 超越所有 ResNet,鲁棒性更强

本章小结

ViT 强调序列化视觉,只有在巨量数据与模型容量配合下才显优势,本章概括了 patch token 化、位置编码与规模敏感性。

迁移策略与效率

Fine-tune vs. Linear Probe

讲座评估了两种迁移方式在 VTAB 上的差距:full fine-tuning 虽然性能最好,但时间代价高;linear probe 结合 projector 既保持部分性能又节省 compute。

迁移效率三法

  • Linear probe:冻结主干,仅训练一个线性分类头;
  • Adapter tuning:插入小模块,仅更新少数参数;
  • Prompt tuning(Vision prompt):引入 learnable tokens,保持 backbone freeze。

案例:卫星图像任务

在 VTAB 的 satellite task 下,ViT 的 backbone 使用 linear probe 后相比 ResNet 仍有 3% 提升。Lucas 解释为 Transformer 更强的 global attention 能识别长距离光谱模式。

本章小结

迁移时务必权衡 compute 与 accuracy,ViT 在 linear probe 甚至 adapter 设置下仍有优势,适合工程级 deployment。

系统工程与风险管理

工程约束

Autonomy 的部署还需面对工程约束,包括训练预算、推理 latency 与模型可解释性。讲者建议:

  • 使用 model distillation 缩小 ViT 以适配边缘设备;
  • 采用 mixed precision + gradient checkpoint 降低 GPU 内存;
  • 为 downstream 任务保留 viewpoint-specific metrics(如 clarity, blur)。

不可忽视的风险

  • Large model 对 rare artifact 的依赖:需要增强数据多样性;
  • 解释能力差:Transformer 内部 attention 仍难解释,可以加 attention rollout;
  • Energy cost:部署 JFT-scale 模型需评估电力与碳足迹。

运维:监控 VTAB drift

建议 setup drift detection:在每次模型 update 之后,重跑 VTAB sample tasks,观察 \(\Delta\) performance。若 drift 超过阈值,先 rollback 再分析训练 log。

Drift awareness checklist

  • 记录 pre-training dataset 版本与 sampling policy;
  • 对 drift task 设立 guardrail(如 success drop > 2% 触发报警);
  • 保留 auto-rollback script,便于回到最后 stable checkpoint。

本章小结

工程部署需要兼顾 latency、energy 与 interpretability,与此同时用 drift monitoring 保证长期性能,避免“scale drift”。

开放问题与未来方向

数据高光与预训练上限

ViT 展现出在亿级数据上的潜力,但也引发问题:人力是否还能持续获取这些数据?是否能通过 synthetic data + self-training 替代?Beyer 提出未来需要进一步发展数据高光 detectionlow-resource augmentation 方法。

多模态与视频拓展

讲者还讨论了将 ViT 扩展到视频、多模态任务的可能性,关键在于如何处理 temporal coherence 与 cross-modal alignment。比如,使用 cross attention 连接 video frame 与 audio/ language cost。

本章小结

虽然 ViT 取得显著成绩,但数据获取、能源消耗与多模态拓展仍是短期内需解决的开放问题。

总结与延伸

核心总结表

维度 核心洞察 实践建议
目标与度量 VTAB 提供多样任务与少样测评 结合 few-shot metric 评估 backbone;
规模化预训练 BiT 说明数据、模型、训练要一起 enlarge 增量训练前先做泄露检测与 robustness probe;
架构创新 ViT 扁平化视觉 token 化需要大量数据 在 resource-bounded settings 使用 adapter/linear probe;
迁移与效率 Transformer 在 linear probe 下仍优于 CNN 采用 adapter/prompt 避免 full fine-tune;
工程与风险 需控制 energy/dataset drift 与 explainability 建立 drift dashboard + rollback pipeline;

进一步阅读

  • Beyer et al., “Are we done with ImageNet?” NeurIPS Workshop 2021(解释 VTAB)
  • Kolesnikov et al., “Big Transfer (BiT): General Visual Representation Learning,” ECCV 2020
  • Dosovitskiy et al., “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,” ICLR 2021
  • Zhai et al., “Scaling Vision Transformers,” CVPR 2022
  • Touvron et al., “Training data-efficient image transformers & distillation through attention,” ICML 2021

本章小结

通过目标、规模、架构、迁移、工程与未来展望六个维度,课程勾勒出通用视觉表征的研究与部署路线图,同时提醒我们要持续监控 drift 与投入成本。