[CS25] GLOM: Part-Whole Hierarchies — Geoffrey Hinton
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | Stanford CS25 |
| 日期 | 2021 |
![[CS25] GLOM: Part-Whole Hierarchies — Geoffrey Hinton](cover.jpg)
引言:部分-整体层次结构问题
Geoffrey Hinton 介绍了 GLOM——一个关于神经网络如何表示部分-整体层次结构的思想实验。这是一篇“设计文档”而非已实现的系统,但其中的思想深刻影响了后续研究。
核心问题
人类视觉天然地将场景解析为层次结构:像素 \(\rightarrow\) 边缘 \(\rightarrow\) 部件(鼻子、眼睛)\(\rightarrow\) 物体(脸)\(\rightarrow\) 场景。如何让神经网络也表示这种动态的、依赖于输入的部分-整体关系?
为什么这个问题难?
传统 CNN 通过固定的层级结构处理视觉信息,但:
- 同一个部件(如圆形)在不同上下文中可以是不同物体的一部分
- 层次结构应该是动态的——依赖于具体输入而非预先固定
- 经典的“胶囊网络”试图解决这个问题,但在实现上遇到困难
GLOM 的核心思想
岛屿与列
GLOM 的架构可以想象为一个二维网格上的“列”,每个列对应输入的一个空间位置(类似 ViT 的 patch)。每个列有多个层级,每个层级用一个向量表示。
GLOM 的关键机制
- 每个空间位置有一个“列”,包含从低级到高级的多个表示层
- 同一层级上,相邻位置如果属于同一物体,其表示向量应该趋于一致——形成“岛屿”
- 同层注意力:同一层级的相邻位置通过注意力机制互相靠拢
- 跨层预测:高层预测低层(自上而下),低层预测高层(自下而上)
对比学习的角色
Hinton 简要介绍了对比自监督学习的思想:
- 同一图像的不同裁剪应有相似的表示
- 这种方法可以学习到有意义的特征,无需标签
- GLOM 中的“岛屿形成”类似于对比学习中的聚类过程
本章小结
GLOM 通过“岛屿”机制动态地形成部分-整体层次结构,而非依赖固定的网络拓扑。
心理意象与变换随机场
心理意象(Mental Imagery)
Hinton 讨论了神经网络如何表示空间关系:
- 人类使用“心理意象”来推理空间关系(如家具的排列)
- 涉及关系推理的任务受益于某种内部的“画布”或“地图”
- GLOM 中的空间网格可以作为这种内部表示的载体
变换随机场
消歧义的挑战
一个圆形可能是轮子的一部分、也可能是眼睛。Hinton 提出使用变换随机场来消歧义:节点之间的消息传递需要考虑空间变换。例如,“鼻子”向周围发送的“嘴巴应该在下方”的消息,需要根据空间位置关系进行变换。
神经场(Neural Fields)
Hinton 将 GLOM 与神经场(NeRF 等)联系起来:
- 高层表示可以通过给定空间位置来预测低层表示
- 这类似于 NeRF 中给定 3D 坐标预测颜色和密度
- 同一个高层向量可以在不同位置生成不同的低层预测
本章小结
GLOM 综合了对比学习、变换随机场和神经场等多个概念,构建了一个关于视觉层次表示的统一框架。
为什么 GLOM 难以直接落地
训练信号与结构假设的张力
GLOM 最吸引人的地方,是它试图让网络显式表示“部分属于哪个整体”。但也正因为目标太雄心勃勃,训练信号变得不那么直接。分类任务的监督只能告诉模型“图里有什么”,却很难精确约束每一个 patch 应该聚成哪个对象岛屿;纯自监督训练又容易学到纹理相似性,而不是真正的对象一致性。
GLOM、Capsule 与 ViT 的关键差别
Capsule Networks 试图通过显式路由来表达部分-整体关系,GLOM 则改为用同层一致性和跨层预测来形成“岛屿”;ViT 的成功路径更朴素,它不强行要求对象结构显式出现,而是依赖大数据和大计算隐式学到有用表示。GLOM 的问题不是想法不对,而是它比 ViT 需要更强的结构性训练信号。
工程上最棘手的三个问题
- 边界不稳定:相邻 patch 在早期训练阶段很容易因为纹理相似而错误聚合。
- 层级耦合过强:高层和低层互相预测会让优化过程彼此牵制,难以单独调试。
- 评测不清晰:如果没有对象级标注,研究者很难知道模型是否真的学到了 part-whole hierarchy。
漂亮的概念图不等于可训练系统
GLOM 非常像一份优秀的研究设计备忘录:它准确指出了视觉系统缺少什么,但从“应该表示什么”走到“如何稳定训练出来”之间还有很长的工程距离。这也是很多对象中心表示方法共同面对的问题。
本章小结
GLOM 的瓶颈不在概念表达,而在于缺少足够强且足够稳定的训练与评测闭环。
对今天视觉基础模型的启发
对象中心表征仍然是未完成任务
尽管 GLOM 没有像 Transformer 一样成为主流架构,但它提出的问题并没有消失。视觉系统仍然需要回答:如何把像素组织成对象、如何表达对象间的空间关系、如何让模型具备稳定的组合泛化能力。今天的 world model、视频理解模型、机器人感知系统,仍在以不同方式重提这些问题。
GLOM 留下来的三条长期启发
- 视觉表征不应只追求分类可分性,还要追求对象结构可读性。
- 层次表示最好是动态形成的,而不是由固定网络拓扑硬编码。
- 自监督学习真正有价值的方向,是让表示能支持后续推理,而不只是压缩输入。
如果今天重新做这件事
如果以 2026 年的工具重做 GLOM,较合理的路线可能是:先用强大的视觉基础模型和视频数据提供对象级先验,再把对象槽位、时序一致性和动作条件建模结合起来。换句话说,GLOM 的思想更可能以模块化形式融入现代系统,而不是单独作为一整个端到端架构出现。
“The right question is not whether hierarchy exists, but how much of it the network should discover by itself.”
本章小结
GLOM 作为单一架构未必成功,但它对对象中心视觉和层次化 world model 的启发仍然非常直接。
总结与延伸
GLOM 虽然是“纯粹的设计文档”,但提出了关于神经网络如何表示部分-整体关系的深刻思想。这些思想影响了后续关于视觉表示学习、对象中心学习和层次化表示的研究方向。
拓展阅读
- Hinton, “How to represent part-whole hierarchies in a neural network,” Neural Computation, 2023
- Sabour et al., “Dynamic Routing Between Capsules,” NeurIPS 2017
- Mildenhall et al., “NeRF: Representing Scenes as Neural Radiance Fields,” ECCV 2020