[CS25] Common Sense Reasoning — Yejin Choi

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford CS25
日期	2023

引言：常识推理与 ChatGPT 时代

Yejin Choi 教授介绍了神经符号常识推理（Neurosymbolic Common Sense Reasoning）的研究。她首先回应了“ChatGPT 是否已解决 NLP”的疑问，通过一个经典的 Winograd Schema 例子展示：

ChatGPT 的常识脆弱性

“The trophy doesn't fit in the brown suitcase because it's too big.”（it = trophy）

ChatGPT 在标准表述下回答正确，但稍微改变问法就会出错——说明它没有真正理解物理常识，而是在做模式匹配。这种“看似聪明实则脆弱”的行为是当前 LLM 的核心局限。

David vs. Goliath：小模型的逆袭

规模不是万能的

规模 vs. 质量

Yejin 认为“更大 = 更好”的叙事过于简单化：

大模型在很多任务上表现优异，但在常识推理的可靠性上仍有严重问题
小模型通过更好的训练策略和数据质量，可以在特定任务上超越大模型
关键不在于参数数量，而在于模型学到了什么样的知识

本章小结

在常识推理领域，模型规模不是唯一的解决方案——知识质量和推理机制同样重要。

常识知识图谱与神经符号方法

ATOMIC 与 COMET

构建常识知识

ATOMIC：大规模常识知识图谱，包含日常事件的因果关系、意图、反应等
COMET：在 ATOMIC 上训练的生成式常识模型——给定一个事件，可以推断相关的常识
核心思想：将人类标注的常识与神经网络的泛化能力结合

道德推理

AI 的道德判断

Yejin 介绍了将常识推理应用于道德判断的研究：

Delphi 系统：基于众包数据训练的道德判断模型
能处理自由形式的道德问题（如“杀熊是否道德？”vs.“为救孩子杀熊？”）
但仍然是描述性的（描述人们认为什么是对的）而非规范性的（什么真的是对的）

本章小结

常识知识图谱和神经符号方法为补充 LLM 的常识短板提供了重要思路。

价值多元主义与 AI 安全

谁的价值观？

AI 伦理的复杂性

在为 AI 注入道德判断时面临的根本问题：

不同文化、宗教、个人有不同的道德标准
不应该将某一种道德框架强加为“正确的”
应采取价值多元主义——尊重多样化的文化和个人偏好
需要 AI、哲学、心理学、政策制定者的跨学科合作

AI 安全过滤器

关于 AI 内容过滤：

可以让 AI 过滤器高度公平和包容（避免微攻击等）
这不违反言论自由——只是让 AI 本身不说有害的话
但需要更多研究来确定“什么应该被过滤”

本章小结

AI 的道德推理需要在技术能力和价值多元性之间找到平衡。

数据、评测与偏见控制

为什么常识数据总是显得不够

常识推理看起来像“每个人都懂一点”，但真正把它写成可训练数据却非常困难。原因在于，常识不是事实库那样的静态知识，而是带有情境依赖、文化背景和默认前提的弱结构信息。同一句话换一个上下文，合理推断就可能完全不同。

常识评测的三类典型失真

语料偏见：数据集中更常见的群体经验被模型误当作普遍规律。
任务过窄：多项选择题会把开放式常识问题压缩成套路化模式。
上下文缺失：很多推理错误并不是模型“不懂常识”，而是题目没有给出关键前提。

构建更可靠的评测闭环

如果团队真的要做常识系统，至少要同时准备反事实案例、跨文化标注和开放生成评测。仅靠单一 benchmark 排行榜，很容易得到“会做题但不会判断”的模型。

高分 benchmark 可能掩盖低质量判断

常识和道德任务尤其容易被模板化。模型也许学会了哪类答案在数据集里更常见，却没有形成稳健的因果理解。这种情况下，离线分数和真实世界可用性之间会出现很大断层。

本章小结

常识研究的核心不是找到一个更大的数据集，而是建立能暴露偏见、情境依赖和推理脆弱性的评测方法。

常识系统的产品落地策略

LLM、知识图谱与工具调用的分工

从工程角度看，最可行的路线往往不是让一个模型独自承担全部常识能力，而是让不同组件分工协作：LLM 负责语言理解与生成，知识图谱负责提供结构化先验，检索或工具负责补充最新事实，人类策略层负责定义边界条件。

一个务实的部署原则

把常识当作系统能力，而不是单模型属性。换句话说，可靠常识来自“模型 + 结构化知识 + 评测治理”的组合，而不是期待某个更大的基础模型自动解决一切。

面向 AI 安全的直接启示

一旦系统会参与教育、医疗、陪伴或高风险建议，常识缺陷就不再是“偶尔答错一道题”，而会变成真实伤害。因此，常识系统上线前必须明确哪些问题允许开放回答，哪些问题必须触发保守策略或人工升级。

本章小结

把常识能力产品化的关键，不是追求单点完美，而是通过组件分工与治理设计降低系统性失误。

总结与延伸

Yejin Choi 的演讲揭示了当前 LLM 在常识推理方面的深层局限，并展示了神经符号方法如何补充纯规模化方法的不足。常识推理、道德判断和价值对齐是 AI 发展中不可回避的核心挑战。

拓展阅读

Hwang et al., “COMET-ATOMIC 2020: On Symbolic and Neural Commonsense Knowledge Graphs,” AAAI 2021
Jiang et al., “Delphi: Towards Machine Ethics and Norms,” 2021
Sap et al., “ATOMIC: An Atlas of Machine Commonsense,” AAAI 2019
Choi, “The Curious Case of Commonsense Intelligence,” Daedalus, 2022