跳转至

CS231N Lecture 18: What We See and What We Value

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于 Fei-Fei Li 授课内容整理
来源 Stanford Online
日期 2025

CS231N Lecture 18: What We See and What We Value

导言:为什么最后一讲不再讲新算法

这一讲不是在课程末尾再补一套新模型,而是把整门 CS231N 的技术线索重新放回到一个更大的问题里:视觉 AI 到底应该学会什么,以及这些能力最终服务于谁。 讲者一开始就明确说明,这是一场“perspective talk”,目标不是引入新 loss、新网络结构,而是从研究史、社会影响和 human perspective 三个维度,把已经学过的视觉技术重新组织起来。\footnote{根据 lecture18 字幕 00:00:05--00:01:15,讲者明确说明本讲不再教授新的算法材料,而是从 long-term research evolution 与 human perspective 回看 AI。}

本讲不是算法加餐,而是课程总收束

  1. 它回顾视觉智能的发展主线:从人类视觉能力启发,到对象识别、关系理解、视频理解。
  2. 它强调 AI 的第二层价值:不仅复制人类能力,还要帮助人类看见看不到、看不全、看不稳的东西。
  3. 它把最终问题拉回到价值对齐:AI 不只是“会不会做”,还包括“该不该做”、“怎样做才尊重人”。

从结构上看,整场讲座可以压缩成三句话:

  • See what humans see:先理解人类为什么能把视觉变成一种高效的智能能力。
  • See what humans don't see:再讨论 AI 如何超越或补足人类感知的盲点。
  • See what humans want to see:最后约束这些能力,让它们服务于人的真实偏好与价值。

TikZ diagram

Lecture 18 的三段式逻辑:从能力、到补足、再到价值对齐

读这讲的正确方式

这不是一篇“技术细节最密”的 lecture,而是一篇“概念跨度最大”的 lecture。它的价值不在于证明某个模型更强,而在于给出一个判断框架:当我们构建视觉系统时,应该同时问能力边界、应用场景、人的偏好、风险与责任

See What Humans See:先理解人类视觉为何如此重要

视觉是生物智能最重要的入口之一

讲者从进化史开始讲视觉,不是为了增加背景故事,而是为了回答一个很根本的问题:为什么计算机视觉会成为 AI 最早、也最核心的子方向之一。 早在约 5.4 亿年前,动物界出现最初的感光细胞之后,视觉就不再只是一个“传感器”,而是推动生物体快速识别环境、躲避危险、寻找食物、识别同伴的关键能力。\footnote{根据字幕 00:01:15--00:03:05,讲者以 Cambrian explosion 与 Andrew Parker 的视觉军备竞赛观点解释视觉的进化意义。}

这段回顾对应着一个研究启示:视觉不是普通输入模态,它天然携带了大量压缩后的世界结构。 人类依赖视觉完成生存、工作、娱乐、社交与学习,这意味着如果机器也能稳定地解析视觉世界,它就有机会触碰到更一般的智能。

TikZ diagram

从进化视角理解视觉智能:视觉先是生存能力,随后才成为机器学习问题

来源:根据字幕 00:01:15–00:03:05 整理。讲者强调视觉既是进化史中的关键转折,也是现代 AI 的起点之一。

对象识别为什么看似容易、实则极难

人类看一张图片,往往几乎不费力就能说出“这是一只狗”、“那是一辆车”。但讲者紧接着提醒:这种 effortless 感受会误导我们低估对象识别的计算难度。 从数学上看,同一对象会随着光照、纹理、遮挡、背景、视角、尺度而发生近乎无限的外观变化;从建模上看,模型既要对这些变化保持鲁棒,又要在类别边界上足够敏感。\footnote{根据字幕 00:07:13--00:08:15,讲者用 lighting、texture、background、occlusion、viewing angle、scaling 等变化解释 object recognition 的根本困难。}

对象识别的真正难点

  • 类内变化巨大:同一类别在现实世界里几乎没有标准外观。
  • 类间差异微妙:很多错误并不是把猫认成车,而是把近邻类别混掉。
  • 环境扰动复杂:背景、遮挡、模糊、阴影都会破坏模式稳定性。
  • 监督信号稀疏:标注只给类别名,却不告诉模型什么特征才该保留。

这也解释了为什么整个计算机视觉领域会长期把对象识别当作“基础构件”。如果一台机器连图中最基本的对象都无法稳定识别,就更谈不上关系理解、场景推理、视频分析或具身行动。

前深度学习时代:从心理学启发到统计学习

讲者把 pre-deep-learning 的对象识别史分成两大波。第一波非常“人类中心”:研究者会先内省自己如何看世界,然后猜测视觉系统也许是在识别若干部件、形状或几何原语,再把它们组合成对象。\footnote{根据字幕 00:08:18--00:09:23,讲者回顾 70s--90s 基于 parts / shapes composition 的一系列 heroic attempts。}

这一思路的优点是解释性强,缺点是对真实世界的变化过于脆弱。它能处理“规范对象”,但很难覆盖自然场景里的外观复杂性。因此这类模型常常在理论上优雅,在开放环境里失败。

第二波是统计机器学习的进入。它的重要性不只在于用了 SVM、Bayesian 模型或 random field,而在于研究范式变化了:

  1. 不再先写死识别规则,而是让模型从数据中估计参数。
  2. 不再只追求单个例子的正确解释,而是追求总体分布上的泛化。
  3. 不再把视觉问题当成几何拼图,而是把它当成学习问题。
阶段 核心假设 主要瓶颈
部件/形状组合 对象可以由有限几何部件拼装出来 面对真实世界外观变化时脆弱,覆盖面不足
统计学习阶段 用参数化模型从数据中学习判别边界 数据规模有限,特征表达能力不足
深度学习阶段 表示学习与大规模监督共同发挥作用 对算力、数据、标注体系提出更高要求
对象识别研究范式的三次跃迁:从规则解释到统计学习,再到大规模表示学习

为什么第一波方法“看起来对”却跑不通

因为人类解释自己认知过程时,经常只看到了结果,没有看见底层表征如何形成。“对象由部件组成” 在概念上没错,但这句话距离一个可扩展、可鲁棒的识别系统还差了很多层。

ImageNet 改变了问题规模,也改变了研究节奏

计算机视觉真正进入现代阶段,靠的不是某一个巧妙 trick,而是数据、算力和模型在同一时间到位了。 讲者把 ImageNet 放在极其关键的位置:它把“机器能认多少类”这个问题从小规模实验室玩具,推进到接近真实世界复杂度的量级。

ImageNet 的意义至少有三层:

  • 它提供了前所未有的大规模视觉词汇表。
  • 它提供了公开 benchmark,使算法比较进入同一坐标系。
  • 它让深网络终于有足够多的数据去学到层级表示。

2012 年之后,AlexNet 成为拐点,不是因为卷积本身突然诞生,而是因为卷积网络、GPU 训练与大规模监督终于形成共振。之后整个视觉领域迅速从“手工特征 + 传统分类器”转向“端到端表示学习”。

2012 年真正改变了什么

不是简单地把分类精度提高了几个点,而是改变了研究者对“视觉能不能靠学习直接解决”的信念。自此以后,识别、检测、分割、描述、生成与多模态模型都开始受益于同一种大规模学习范式。

视觉理解不会停在对象标签

这节课最有价值的一点,是它没有把“识别对象”当成终点。讲者明确往后推了好几层:对象只是开始,关系、属性、语言、时间和行动才是更完整的视觉智能。

为什么这么说?因为单个对象标签往往不足以描述真实场景。“图里有一个人、一只羊驼”和“人骑着羊驼”是完全不同的语义层次。真正能支撑搜索、描述、问答和机器人决策的,不是孤立名词,而是结构化场景理解。

TikZ diagram

视觉任务的语义升级路径:对象识别只是第一层,更高层次是关系、语言与行动

从 scene graph 到 captioning,再到视频理解

讲者回顾了这一系列扩展任务的内在逻辑:

  1. Scene graph / relationship understanding:让模型不只列对象名词,而是刻画对象之间的结构关系。
  2. Image captioning / storytelling:让视觉表示进入语言空间,支持更自然的人机接口。
  3. Dynamic scene understanding:让模型处理对象运动、交互变化、时序依赖与未来预测。

这一系列任务难度层层上升。对象识别只需要回答“有什么”;关系理解要回答“彼此如何关联”;captioning 要回答“如何用自然语言压缩这个场景”;视频理解则要再进一步回答“谁在什么时候做了什么,以及接下来可能发生什么”。

为什么视频理解比图像理解更难

  • 它需要同时保持空间结构和时间结构。
  • 它必须区分短时动作与长时情节。
  • 它要求模型处理主体交互,而不仅是主体存在。
  • 它离真实世界更近,因此也更接近后续的机器人与 agent 问题。

Compositional generalization:为什么 scene graph 很关键

字幕里有一段很值得单独拆开看。讲者引用心理学家的观点说,复杂自然场景中的对象关系,必须作为理解的一部分被编码。 这句话看似简单,实际上是在指出分类时代的局限:只知道 “person” 和 “horse” 同时出现,还远远不足以恢复图像语义;真正有意义的是 “person riding horse”、“horse wearing hat” 这样的结构表达。\footnote{根据字幕 00:15:43--00:18:39,讲者用 Jeremy Wolfe 的观点引出 relationship understanding、scene graph 与 zero-shot unusual relationship。}

scene graph 的好处在于,它把视觉理解拆成了更可组合的单元:

  • 对象节点:谁在场景中出现。
  • 属性节点:对象有什么状态或特征。
  • 关系边:对象之间以何种方式相连。

这种表示直接带来一种非常重要的能力:组合泛化。 如果模型见过 “person wearing hat” 和 “horse standing”,那么它未必需要大量见过 “horse wearing hat” 的训练样本,也有机会通过组合规则去理解这个不常见关系。讲者举的例子很典型:“person sitting on chair” 和 “fire hydrant on the lawn” 常见,但 “person sitting on fire hydrant” 就很少见;scene graph 之类的组合表示,正是为了让模型在长尾关系上也能做出合理推断。

TikZ diagram

scene graph 的核心思想:把名词、属性与关系显式结构化,支持长尾组合推断

这一步为什么重要

因为很多真实世界错误都不是 “看不见对象”,而是 “看见了对象,但没理解它们之间的关系”。从安全场景到具身智能,关系理解都比孤立分类更接近决策所需的语义。

Captioning 与 storytelling:视觉第一次真正接上语言

讲者随后回顾了 2014--2018 这一波工作:用 CNN 提取图像表示,再接上 LSTM 之类的语言模型,实现 image captioning、dense captioning 与 storytelling。\footnote{根据字幕 00:18:39--00:20:23,讲者提到 Andrej Karpathy 等人在 CNN + LSTM 时代推动 image captioning、dense captioning 和视觉叙事任务。}

这件事在今天的多模态 LLM 时代看起来已经很自然,但在当时意义非常大。因为它第一次大规模证明了:视觉系统不必只输出标签,也可以输出一句话、一段描述,甚至一组区域级说明。 这等于把视觉模型从 “分类器” 推进到了 “语言接口”。

任务 输出形式 能力提升
图像分类 单个类别标签 回答 “这是什么”
关系理解 结构化对象关系 回答 “谁和谁如何关联”
图像描述 一句或多句自然语言 回答 “这幅图在发生什么”
Dense captioning 区域级语言描述 回答 “图中各局部各自在做什么”
视频叙事 时序化语言输出 回答 “一段时间内事件如何展开”
从标签到语言的升级:视觉系统的输出空间越来越接近人类交流方式

这一步还带来一个长期影响:一旦视觉表示进入语言空间,它就天然可以和问答、检索、对话、规划与 agent 系统连起来。也正因为如此,captioning 并不只是一个中间时代任务,而是后来多模态大模型的直接前身之一。

这一部分真正想说明什么

“See what humans see” 并不是一句空话,它代表视觉 AI 的第一阶段目标:把人类已经擅长的视觉感知任务,系统地变成机器可学习、可扩展、可比较的问题。其核心结论可以概括成三点:

  • 视觉之所以重要,是因为它承载了大量关于世界结构的先验。
  • 对象识别之所以难,是因为真实世界变化无限,而监督信号有限。
  • 现代视觉突破不是单点发明,而是数据、算力、表示学习范式共同成熟的结果。

第一部分的收束

如果说课程前半程回答的是“机器怎样看见东西”,那么这一部分回答的是“为什么视觉本身就值得成为 AI 的主战场”。这为后面讨论 superhuman perception、人类盲点和 human-centered AI 提供了历史与方法论基础。

See What Humans Don't See:AI 如何补足人类盲点

超人类感知不是神话,而是某些任务的自然结果

在讲完机器如何学会人类已经会做的事之后,讲者把问题推进了一步:AI 是否应该只停在模仿人类? 答案显然是否定的。对很多 fine-grained 任务来说,人类本来就不擅长,或者代价太高;此时机器完全可以成为一种“超人类感知工具”。

鸟类细粒度分类、车型识别、工业缺陷检测、医学影像中的微弱模式识别,都属于这一类。它们的共同点是:类别空间很细、视觉差异很小、人类经验不稳定、规模化分析困难。此时机器的价值不在于像人,而在于比人更稳定、更可重复、更能处理海量数据。

什么叫“超人类”

这里的 superhuman 并不是说模型在所有视觉任务上全面超过人类,而是指在某些定义清晰、标注充分、目标单一的子任务上,模型可以达到高于普通人的分辨率、速度或一致性。

AI 还能把图像变成社会科学的测量仪器

本讲里一个很有启发性的例子,是把街景中的汽车识别结果当成“社会透镜”。讲者提到,研究者可以从城市街景中识别车辆类型,再把车型分布与教育水平、收入、投票倾向、环境差异等宏观变量联系起来,从而用视觉信号研究社会结构。\footnote{根据字幕 00:26:28--00:27:24,讲者回顾了利用街景车辆分布推断教育、收入、投票与环境模式的工作。}

这件事非常重要,因为它重新定义了计算机视觉的用途。视觉系统不再只回答“图里是什么”,而可以回答“一个城市或一个社会系统正在呈现什么统计规律”。单个人类观察者无法手工完成这样的大规模汇总,而 AI 能在海量图像中提取稳定的统计结构。

TikZ diagram

视觉系统作为“社会测量仪器”:从街景对象识别走向城市级统计分析

这里的关键不是相关性本身,而是尺度

对单个样本做判断,人类并不弱;但在跨城市、跨区域、跨时间的大规模观察上,AI 可以把原本不可测的社会模式变成可分析数据。这是“看见人类看不见的东西”的一种典型形式。

人类视觉其实远没有我们想象得可靠

讲者随后故意做了几个经典实验,目的不是炫心理学常识,而是提醒我们:人类视觉的成功经验容易让人忘记自己的局限。 Stroop test 告诉我们注意力会被自动化阅读过程干扰;change blindness 告诉我们即使场景发生显著变化,人类也可能需要较长时间才察觉。\footnote{根据字幕 00:27:24--00:28:47,讲者先用 Stroop test 展示视觉注意力冲突,再用 engine 消失的 change blindness 实验说明大变化也可能被忽略。}

这些实验之所以重要,是因为它们把“人类有偏差”从抽象判断变成了可观察事实:

  • 我们的注意力资源有限。
  • 我们会受先验和自动加工过程影响。
  • 我们在持续监控任务中容易疲劳。
  • 我们对显著变化的察觉并不总是及时。

TikZ diagram

人类视觉的三类局限:注意力、先验偏置与疲劳一致性问题

“人类在环” 并不自动等于安全

很多系统设计里喜欢说“最后让人来确认”,好像只要有人盯着屏幕就能兜底。但如果任务本身就是持续、重复、长时间、高压力的视觉监测,那么人类很可能恰恰是最不稳定的那一环。

医疗是 AI 补盲最有说服力的应用场景

讲者随后把话题从心理学实验迅速转到医疗现场,这个转折非常有力。因为在医疗场景里,注意力缺口和人为遗漏不再只是“有趣现象”,而会变成病人风险、流程延迟与系统成本。字幕里提到,美国医疗系统中的 medical errors 长期是极严重的问题,而手术室里对纱布、针、器械的人工盘点,仍然高度依赖手工 checklist。\footnote{根据字幕 00:28:47--00:30:56,讲者以手术室物品追踪、遗留物风险与人工 checklist 的局限,说明 AI 辅助监测的实际价值。}

这里 AI 的角色不是取代医生,而是把医生、护士和手术团队从低效、重复、易漏的视觉盘点中解放出来。理想的系统会做几件事:

  1. 持续监测关键物品是否进入和离开工作区。
  2. 在出现数量不匹配时实时预警,而不是收尾时才发现。
  3. 把高频重复工作交给机器,让医护把注意力保留给判断与沟通。

TikZ diagram

医疗 ambient intelligence 的基本闭环:持续感知、稳定追踪、异常告警、由人完成最终决策

为什么医疗监测特别适合 human-centered AI

  • 高风险,但又有大量重复视觉劳动。
  • 对一致性要求很高,人类疲劳成本很大。
  • 最终责任必须由专业人员承担,因此天然适合“机器辅助 + 人类决策”。
  • 价值清晰:减少错误、降低等待、提升照护覆盖面。

Hand Hygiene:为什么这个案例非常典型

讲者在医疗案例里首先讲了 hand hygiene,而不是更 “高级” 的诊断任务,这个选择其实非常说明问题。洗手这件事看起来简单,但对降低 hospital-acquired infection 极其关键;与此同时,它又特别适合暴露人类审计体系的局限。医院当然可以雇审计员去盯,但这会立刻遇到三个问题:人手不够、成本过高、长期观察的一致性极差。\footnote{根据字幕 00:42:11--00:44:36,讲者说明 hospital-acquired infection 的严重性、人工 auditor 的局限、RFID 的非特异性,以及 privacy-preserving depth sensor 的优势。}

讲者还顺手对比了一个常见但不够好的技术方案:RFID。一个佩戴工牌的人靠近洗手池或消毒液分发器,并不等于他真的完成了 hand hygiene 动作。这说明高风险场景里,邻近性信号不等于行为信号。 视觉系统的价值,恰恰在于它能够直接分类 “是否真的发生了洗手动作”,而不是靠弱代理变量猜测。

为什么深度传感器比普通摄像头更合适

  • 它保留了动作轮廓和空间位置,足以做行为识别。
  • 它天然弱化面部与身份细节,更容易满足隐私要求。
  • 在 hospital corridor 这种狭小空间里,它比简单 proximity sensing 更接近真实任务目标。

讲者给出的一个很有冲击力的结论是:如果拿同一段视频去做标注,算法的一致性明显高于单个人类观察者,甚至要汇总多个人的判断才能接近 AI 的稳定性。这正是 “see what humans don't see” 的现实含义:不是 AI 比人更懂医疗,而是 AI 在重复、细粒度、长期视觉审计上比人更稳。

ICU 与 Aging in Place:AI 瞄准的是 healthcare 的 dark spaces

讲者接着把 “dark spaces of healthcare” 这个概念讲得很具体。所谓 dark spaces,不一定是灯光昏暗的地方,而是那些持续重要、风险很高、又很难长期获得高质量人工监测的空间。ICU 是典型例子:病人生死攸关,资源消耗极大,医护人力高度紧张,而很多关键恢复指标又依赖持续观察。\footnote{根据字幕 00:44:48--00:47:30,讲者讨论 ICU mobilization、labor shortage、smart sensor 在 ICU 与老年居家照护中的作用。}

其中一个具体任务是 mobilization,也就是帮助 ICU 病人安全地完成移动和起身。对普通人来说,下床、上床、起身坐下似乎只是日常动作;但对 ICU 患者,这些动作既代表恢复进展,也伴随很高风险。AI 在这里可以监测 “getting out of bed / getting in bed / getting out of chair / getting in chair” 等事件,并把这些信息交给医护做更好的恢复管理。

而到了 aging in place 场景,目标又略有不同:不是医院内的高密度照护,而是让老年人能够更安全、更独立地留在家中生活。此时 thermal camera、mobility monitoring、sleep pattern、dietary pattern 等传感器信号,构成的是一种早期异常发现系统。它不一定给出诊断,但可以在系统过载之前发出足够早的风险信号。

TikZ diagram

healthcare dark spaces:病房、ICU 与家庭照护都需要长期稳定的感知支持

偏见不是边角问题,而是视觉系统的结构性风险

讲者在这一段里把另一类“看不见”也点了出来:我们经常看不见自己视觉系统里的偏见。 棋盘阴影错觉等视觉幻觉说明,人类视觉天然带着关于光照、几何与世界结构的内建假设;而在人脸识别、公平性问题中,数据分布与社会历史又会进一步把偏差放大。\footnote{根据字幕 00:31:01--00:33:00,讲者用 checker shadow illusion 说明人类视觉系统的先验偏差,并转向 face recognition fairness 的社会后果。}

这段话最重要的不是“AI 也有 bias”,而是:AI 会放大它所吸收的人类偏差。 如果训练数据对某些肤色、性别、年龄群体覆盖不足,那么模型在这些人群上的错误率就会更高;当系统被部署到自动驾驶、医疗或公共服务场景时,这种差异会转化为现实世界的不公平。

Bias 的真正危险

偏见可怕的地方不在于它让系统“不够完美”,而在于它会把历史中的不平等编码进一个看起来客观、自动、可扩展的系统里。规模化之后,伤害会比单个人类判断更广。

隐私保护不是让系统少看一点,而是重新设计它怎么看

紧接着,讲者提出另一种更微妙的“不看见”:有些时候,我们不是想让 AI 看得更多,而是想让它只看见对任务必要的那一部分。 医疗病房、家庭监护、老人照护、儿童活动识别,都存在这样的张力:你需要模型理解行为,却不希望它暴露身份、面部、家庭内部布局等高度私密信息。\footnote{根据字幕 00:33:00--00:36:58,讲者系统讨论 visual privacy,包括 blurring、masking、dimensionality reduction、federated learning、encryption 以及硬件与软件联合设计的 privacy-preserving action recognition。}

这类问题最容易被误解成“把图像打码就好了”。但讲者特别强调,真正有价值的方案往往要把硬件与软件一体设计:例如专门设计镜头或编码方式,让传感器从源头就只保留动作结构所需的信息,而不保留人脸身份或室内细节。

TikZ diagram

视觉隐私保护的设计思路:不是简单减信息,而是面向任务重构可见性

隐私友好视觉系统的设计原则

  • 从源头约束:传感器或编码阶段就控制可见信息。
  • 只保留任务必要特征:例如动作轨迹,而不是完整身份。
  • 兼顾可用性:保护隐私不能把任务信号也一起毁掉。
  • 把 privacy 当成系统目标,而不是部署后的补丁。

这一部分的真正结论

“See what humans don't see” 表面上讲的是 superhuman vision,实际上包含了三层不同含义:

  1. 比人看得更细:在 fine-grained 任务上实现高分辨率区分。
  2. 替人看得更稳:在长期监测与高风险环境中减少遗漏与疲劳。
  3. 按人要求地看:在隐私、公平和责任约束下,只看该看的部分。

技术能力越强,越不能省掉 human perspective

因为 AI 不只是一个新传感器,它是一个会被规模化部署的判断系统。它可以帮我们补盲,也可以把偏差、监控和不公平放大。能力和约束必须一起设计。

See What Humans Want to See:把视觉能力约束到人的目标

从 “replace humans” 转向 “augment humans”

这一部分是整场讲座的价值核心。讲者明确反对把 AI 粗暴地理解为取代劳动的机器,相反,她反复强调的词是 augment。也就是说,系统的首要目标应当是扩大人的能力边界、缓解稀缺人力、降低重复劳动负担、提升照护和决策覆盖范围,而不是默认让机器接管一切。

这种立场并不天真。因为很多最重要的应用场景,比如医疗、养老、家庭照护,本来就存在巨大的人力缺口。AI 在这里不是和人争工作,而是在帮系统填补长期无法靠人力单独填平的空白。

Replace 与 Augment 的差别

  • Replace mindset:把人看成成本,把机器看成更便宜替代品。
  • Augment mindset:把人看成责任主体,把机器看成扩大覆盖面与一致性的工具。

Lecture 18 明显站在后者这一边。

医疗 ambient intelligence 是 human-centered AI 的代表场景

前面提到的医疗监测,在这里被重新赋予了价值解释。为什么讲者如此看重 ambient intelligence?因为它天然符合 human-centered design 的四个条件:

  1. 需求真实:病房、ICU、家庭照护都有持续监测需求。
  2. 人力稀缺:不可能全天候依赖人工高质量覆盖。
  3. 风险可定义:跌倒、异常活动、物品遗漏、手卫生等都有明确目标。
  4. 责任边界清楚:AI 给出信号,人类负责最终理解与处置。

这也是 lecture18 的重要判断:最值得优先做的 AI,不一定是最炫的,而是最能在真实世界里减轻人的痛点、同时保留人类主导权的。

视觉的终点不是描述世界,而是进入行动闭环

如果说前两个部分解决的是“看见什么”与“怎么看得更好”,那么这一部分开始处理“看见之后如何行动”。讲者把话题推进到 embodied AI 与机器人,这意味着视觉系统不再停留在认知层,而是要参与决策、控制和任务完成。

机器人场景里的难点显著升级:

  • 环境开放且变化剧烈,不再是静态 benchmark。
  • 任务是组合式的,涉及多步骤依赖。
  • 感知错误会直接传递到动作错误。
  • 评估标准不再只是 accuracy,而是任务完成率、鲁棒性与安全性。

讲者给出的框架很有代表性:大模型负责把人类意图转成子任务,视觉模型理解当前场景,规划模块把这些信息变成可执行的 action sequence,最终驱动机器人操作。这里最重要的不是某一个模块,而是 perception--language--planning--action 的闭环。

TikZ diagram

具身 AI 闭环:目标、理解、分解、规划、执行

为什么机器人会逼迫视觉系统更真实

因为机器人不能只在 representation space 里“看起来懂了”。一旦要落到执行,错误就会通过抓取失败、路径碰撞、任务中断等形式被立即暴露。机器人因此天然要求视觉表示更稳定、更结构化、更可操作。

Open-World Robotics:LLM 和 VLM 是怎么接到机器人上的

这部分字幕给出的不是抽象愿景,而是一条相当具体的技术路线。讲者想解决的问题是:机器人能不能像 LLM 一样接受开放指令,而不是只能在预定义闭世界里执行少数固定任务?\footnote{根据字幕 00:49:21--00:53:18,讲者介绍 open instruction robotics:LLM 生成代码或子任务,VLM 识别环境中的 drawer / handle / vase,再把结果更新到 motion planning heatmap 中。}

她给出的例子是 “open top drawer, but avoid the vase”。要完成这件事,系统至少要做四层映射:

  1. 把自然语言指令解析成可执行子目标。
  2. 在当前场景里找到 drawer、handle、vase 等目标物。
  3. 把 “靠近抽屉把手” 和 “远离花瓶” 共同转化成 motion planning map。
  4. 将空间热图进一步落到 gripper 旋转、速度和路径控制上。

TikZ diagram

open-world robotics 管线:语言 grounding 后进入动作规划

这条路线真正解决的,不是某个特定 drawer 的开合,而是机器人“泛化到没见过的环境”的能力。以前很多机器人系统之所以显得脆弱,是因为它们在训练时就已经知道世界会长成什么样;而这套 LLM + VLM + planner 的组合,至少提供了一种离开 closed world 的办法。

为什么这还远远没有被解决

因为真实家庭环境里,目标会遮挡、光照会变、物体会移动、指令会含糊、动作后果会连锁变化。LLM 和 VLM 能帮助开放指令与开放感知,但它们还没有把机器人的可靠性问题彻底解决。

Benchmark 也必须从 “漂亮” 走向 “生态有效”

讲者提到 ecological robotic learning environment 与 BEHAVIOR benchmark,重点不在于介绍一个数据集名称,而在于提出 benchmark 设计哲学的变化:如果评测环境离真实家庭、真实物体、真实多步骤任务太远,那么机器人系统很可能只是在刷分,而没有变得真正有用。\footnote{根据字幕 00:54:40--00:55:10,讲者介绍 ecological robotic learning 与 BEHAVIOR benchmark,强调 everyday household activity 与 virtual interactive ecological environments。}

这和课程前面讲的 ImageNet 时代形成了呼应。早期 benchmark 的价值是把识别问题规模化、标准化;而到了机器人和 agent 阶段,benchmark 的价值变成了让模型在更接近真实世界的组合任务里暴露真实短板。

Benchmark 的陷阱

如果 benchmark 只奖励单步成功率、固定视角和干净场景,那么模型会学会迎合评测,而不是学会服务真实世界。Lecture 18 要求我们重新思考:什么样的 benchmark 才配得上 human-centered AI。

为什么 BEHAVIOR 这类 benchmark 会让人 “有点沮丧”

讲者后面给出的数字其实很刺耳:在不给 privileged information 的前提下,把今天的算法直接丢进这类生态任务环境,很多任务的表现几乎就是 0。\footnote{根据字幕 01:00:30--01:01:29,讲者明确说 today's algorithms still cannot do behavior tasks;在没有 privileged information 的 top row 条件下,三个 behavior task 的表现接近 zero。}

这不是坏消息,反而是 benchmark 真正有价值的证据。因为如果一个 benchmark 让大家轻松刷出高分,那往往只能说明任务过于理想化;而当系统一旦失去完美记忆、完美状态、magic motion 之类的强假设,性能就迅速掉到接近零,说明 benchmark 终于开始逼近真实世界的复杂性。

生态 benchmark 暴露出的真实缺口

  • 当前算法离长程规划仍然很远。
  • 当前算法离真实物理交互仍然很远。
  • 当前算法离开放环境中的稳健泛化仍然很远。
  • 当前算法离“没有特权信息也能做事”仍然很远。

讲者还提到,BEHAVIOR 不只是一个虚拟环境,而是在 50 个真实场景扫描、上万物体资产、变形体/透明体/热学等属性建模、以及与 Omniverse 协同构建的物理与感知仿真基础上发展出来的。这意味着它追求的不只是 render 得好看,而是让任务结构、物理属性和感知输入都尽量接近现实。

从数字孪生到脑机接口:lecture18 给出的未来方向

在收尾前,讲者还快速扫过了几条未来线索:real-to-sim transfer、digital twin、用同一生态环境研究视觉障碍患者,以及利用 EEG 控制机器人完成烹饪等动作。\footnote{根据字幕 01:01:44--01:04:29,讲者提到数字孪生、视觉障碍研究场景,以及通过 EEG 信号控制机器人完成整套操作。}

这些例子共同指向一件事:视觉 AI 的未来不是只做 “更强分类器”,而是和机器人、临床、认知科学、辅助技术深度耦合。尤其是 EEG 控制机器人的例子,虽然还非常早期,但它很直观地展示了 lecture18 想强调的方向:AI 与机器人最动人的用途之一,是帮助那些因为身体条件受限而无法直接行动的人恢复行动能力。

决定机器人该做什么的人,不应该只是研究者

这一段是 lecture18 最“人本”、也最不像传统技术课的一段。讲者提出一个很直接的问题:到底是谁来决定机器人应该学哪些任务? 如果只靠实验室研究者拍脑袋,得到的任务列表很可能只是“技术上好做”,或者“研究者自己觉得有趣”,而不一定是普通人真正愿意交给机器的事情。

因此,讲者介绍了一个 human-centered survey:研究者汇总了来自美国和欧洲劳工调查中的大量日常活动任务,再邀请约 1,400 名受访者表达他们愿意让机器人帮忙完成哪些工作、又不愿意把哪些任务交出去。\footnote{根据字幕 00:55:10--00:57:18,讲者介绍从政府劳动调查中整理日常任务,并在线招募约 1,400 名参与者评估机器人任务偏好。}

这个结果非常有信息量。人们一般欢迎机器人做清洁、铲雪、重复劳动、脏活累活;但对情感性强、社交意义强、象征意义强的任务则明显抗拒,比如打开圣诞礼物、购买婚戒、某些婴儿照护细节等。也就是说,任务是否自动化,不只取决于技术可行性,还取决于情感、社会与文化含义。

TikZ diagram

机器人任务偏好:脏活累活偏好高,情感与象征性任务偏好低

来源:根据字幕 00:55:10–00:58:01 整理。讲者给出的实例包括 clean kitchen floor、shoveling snow、folding laundry、opening Christmas gift、buying wedding rings 等。

这项调查的价值不在于给出一个固定榜单

它真正重要的地方在于提出了一种原则:机器人任务空间不该只由技术供给决定,也要由人的偏好来定义。 Human-centered AI 不是在系统做完之后征求意见,而是在任务定义阶段就把人的选择权纳入进来。

这一部分真正想传达什么

“See what humans want to see” 的意思不是“让 AI 更讨喜”,而是把系统从根上绑定到人的目的上。它要求研究者同时回答三个问题:

  1. 这个系统究竟在帮谁?
  2. 它是在替代人的判断,还是在增强人的能力?
  3. 它优化的任务目标,是技术人员自定的,还是经过人的真实偏好校验的?

Lecture 18 的核心价值判断

真正高级的 AI 不是能力无限扩张,而是在能力越来越强时,仍然知道自己该停在哪、该向谁负责、该为哪些真实需求服务。

总结与延伸

如果把整门 CS231N 看成一条主线,那么 Lecture 18 做的是一次“高层反编译”:它把前面学过的卷积网络、识别、检测、分割、生成、多模态与具身智能问题,重新还原成三个更大的研究命题。

命题一:视觉 AI 首先是对世界结构的学习

从进化视角到对象识别史,这一讲提醒我们,视觉不是随机输入,而是世界结构最密集的表达之一。对象、属性、关系、语言、动作,这些层层递进的任务共同构成了视觉智能的扩展路径。

命题二:AI 的价值不只在于复制人类,还在于补足人类

无论是 fine-grained recognition、社会统计、医疗监测,还是长期持续感知任务,AI 都可以成为一种超越人类尺度、稳定性和覆盖面的工具。但这类能力只有在公平、隐私与责任边界被认真对待时,才是真正有价值的进步。

命题三:最难的问题不是能不能做,而是该不该做、该怎么做

这一讲最终把问题交还给 human-centered AI:自动化什么、保留什么、增强谁、如何评估“有用”,这些都不是模型精度曲线自己会回答的。它们需要研究者主动把人的价值、偏好与制度约束嵌入系统设计。

把三条主线翻译成真实系统设计问题

如果把 lecture18 的三条主线落到工程上,可以得到下面这张很实用的检查表。它的价值在于:每做一个视觉系统,都可以拿这张表过一遍,判断自己究竟在解决哪一层问题。

主线 系统目标 常见失败模式 研究者必须补问的问题
See what humans see 学会可靠的对象、关系、语言与时序理解 只会背训练分布,离开 benchmark 就不稳 我们究竟学到了世界结构,还是学到了数据集套路?
See what humans don't see 补足人类在尺度、一致性、疲劳和长尾上的短板 把偏差、不公平或监控一起规模化放大 模型补的是人的盲点,还是放大了人的弱点?
See what humans want to see 让能力真正服务人的目标、偏好和责任边界 技术上可行,但任务本身不值得自动化 谁定义任务?谁承担后果?谁有权拒绝自动化?
lecture18 的三层问题可以直接转成系统设计审查表

为什么这张表值得记下来

很多坏系统并不是因为模型不够强,而是因为它们从一开始就答错了问题。它们也许能 “see”,但没有想清楚 “why”、“for whom” 与 “at what cost”。

给做视觉研究和做系统的人各留一个提醒

对研究者来说,这一讲最重要的提醒是:不要把 benchmark 上的成功直接误认为世界中的成功。 ImageNet 时代证明了标准化评测的力量,但 lecture18 又反过来提醒,真实世界中的价值判断、隐私边界、长程行为与具身执行,并不会因为 top-1 accuracy 提升而自动解决。

对系统工程师来说,这一讲最重要的提醒是:不要把 human-in-the-loop 当成免责条款。 如果系统设计本身忽视了人的疲劳、注意力上限、偏好差异与责任链条,那么把最终确认塞给人类,只是在把系统缺陷转嫁给一线使用者。

三条最终 takeaway

  1. 视觉 AI 的历史,是把人类感知能力转化为可学习系统的历史。
  2. 现代 AI 最有价值的方向之一,是补足人类盲点,而不是机械复制人类。
  3. 能力越强,越需要 human perspective;否则 AI 放大的不只是效率,也可能是不平等、监控与错误。

把这一讲放在整门课最后,其实非常合适。因为学完模型之后,学生最容易产生的错觉是:只要模型更大、数据更多、benchmark 更高,问题就自然解决了。Lecture 18 明确告诉我们并非如此。真正成熟的视觉研究者,需要同时理解表示、应用、风险与价值

这也是整门课最值得带走的一句话

我们当然要 build AI to see things,但更重要的是 build AI to help people, respect people, and remain answerable to people.

本章小结

Lecture 18 的真正价值,不是再教一个新模型,而是把整门 CS231N 的技术积累重新放回 “人如何使用视觉智能” 这个更大的问题里。它要求我们同时理解世界结构、能力边界、风险治理与人的真实偏好,这也是现代视觉系统从论文走向现实部署时最难跳过的一关。

一页总表:从课程主线到系统设计

视角 课程里回答的问题 落到系统中的表现 设计时最该追问什么
感知建模 模型是否真正学到对象、关系与时序结构 检测、分割、VLM、具身感知等能力是否稳健 系统是在理解环境,还是在复述数据集偏差?
能力增强 AI 是否补足人类看不到或难以稳定完成的部分 医疗监测、社会统计、长期感知、辅助技术 我们是在扩展人的能力,还是放大错误与不公平?
人本约束 自动化边界由谁定义、如何被审查 任务选择、反馈环路、责任划分与拒绝机制 谁定义目标、谁承担后果、谁能说不?
把 Lecture 18 的三层主线压缩成系统设计检查表

给继续学习视觉 AI 的读者三条延伸路线

如果把 Lecture 18 当成分叉点,后续最值得追的三条线

  1. 具身与机器人视觉:继续往 action、planning、real-to-sim transfer 与数字孪生走,理解视觉如何进入闭环控制系统;
  2. 医疗与辅助技术:关注 AI 在诊断、长期监测、残障辅助与脑机接口中的真实价值与责任边界;
  3. Human-centered evaluation:不只看 benchmark,而是研究人类偏好、制度约束与部署后的社会反馈。

为什么这三条路线比 “再刷一个 benchmark” 更重要

Lecture 18 的立场非常明确:视觉研究真正走向成熟,不是因为模型更大了,而是因为它开始正面回答 “谁受益”、“谁承担代价”、“什么任务值得自动化” 这些问题。未来越是强大的视觉系统,越需要同时接受技术评估和人本评估。

拓展阅读

  • Human-centered AI 与 value-sensitive design 相关文献,帮助把 “用户偏好” 变成可执行的系统设计原则
  • 具身智能与机器人学习课程,补上从视觉感知到行动闭环的部分
  • AI fairness、privacy、accountability 方向的论文与案例研究,理解视觉系统部署后的长期后果
  • 医疗 AI 与 assistive robotics 论文,观察 “see what humans don't see” 如何在真实场景中创造价值