[CS25] Strategic Games (Diplomacy) — Noam Brown, Meta
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | Stanford CS25 |
| 日期 | 2023 |
![[CS25] Strategic Games (Diplomacy) — Noam Brown, Meta](cover.jpg)
引言:从扑克到外交——不完美信息博弈
Noam Brown 来自 Meta AI(FAIR),是 Libratus/Pluribus(扑克 AI)和 Cicero(外交游戏 AI)的核心研究者。本讲聚焦于外交游戏(Diplomacy)中 AI 面临的独特挑战。
外交游戏简介
外交是一款 7 人策略棋盘游戏,设定在一战前的欧洲。每个玩家控制一个国家,核心特点:
- 同时行动:所有玩家同时提交行动,而非轮流
- 自然语言沟通:玩家在每轮行动前可以自由交流、结盟、谈判
- 背叛是允许的:承诺不具约束力,“破坏友谊的游戏”
- 核心技能:在鼓励不信任的环境中建立信任
搜索时计算(Test-Time Compute)
从快思考到慢思考
搜索的价值
Noam 首先回顾了在扑克 AI 中的关键发现:
- 训练后的 bot 在困难局面下瞬间做出决策(查表)
- 人类在困难局面下会花时间思考(有时数分钟)
- 给 bot 加入推理时搜索(test-time compute)——在当前局面重新计算更好的策略——可以用极少的参数达到大参数模型的效果
这一发现预示了后来的“思考 token”和 o1 等方向。
本章小结
搜索时计算是 AI 博弈中的关键技术,其思想已扩展到语言模型推理中。
Cicero:外交游戏 AI
系统架构
Cicero 的核心组件
Cicero 由两个主要模块组成:
- 战略推理引擎:预测所有玩家的行动,搜索最优策略(类似于扑克 AI 的均衡求解)
- 对话模型:基于大语言模型的自然语言生成,用于与其他玩家沟通
两个模块的协调是系统的关键——战略意图必须通过语言准确传达。
对话生成的挑战
对话模型的“愚蠢”泄露
一个有趣的技术难题:战略引擎会将完整的己方计划(包括对当前对话伙伴的敌对行动)输入对话模型。由于对话模型并不“理解”策略,它可能会直接告诉对手你要攻击他——这种“诚实得过分”的行为需要额外的过滤机制来防止。
实验结果
Cicero 在 webDiplomacy.net 上与人类玩家匿名对战:
- 在多局游戏中达到前 10% 的表现水平
- 大部分人类玩家未能识别出 Cicero 是 AI
- Cicero 表现出了合作、谈判和适度欺骗的能力
本章小结
Cicero 是首个在需要自然语言沟通的多人策略游戏中达到人类水平的 AI 系统。
更广泛的意义
从游戏到现实
- 外交游戏中的技能(谈判、信任建立、策略沟通)直接适用于商业、外交等现实场景
- 语言和推理的结合是 AI 的下一个前沿——不仅要“说得好”,还要“想得深”
- 搜索时计算的思想正在从博弈领域扩展到通用语言模型推理
本章小结
外交游戏之所以重要,不是因为它接近真实世界,而是因为它逼迫 AI 同时处理策略、沟通和不完全信息。
构建可沟通智能体的工程原则
战略状态与语言状态必须分离
像 Cicero 这样的系统揭示了一个很少被讨论但非常关键的工程原则:内部战略表示和对外语言表达不应完全混在一起。前者追求对局面和收益的准确建模,后者则需要考虑合作关系、时机与社会规范。如果二者不分层,系统很容易出现“把私有意图直接说出去”或“语言承诺与行动不一致”的问题。
多智能体系统中的双轨表示
今天很多 agent 系统也面临类似问题:规划器负责生成内部计划,执行器负责采取动作,对外接口负责与用户或其他 agent 沟通。把三者混成一个 prompt 虽然简单,但在复杂环境里往往不稳定、不可审计,也难以做权限控制。
需要可追踪的协商日志
如果智能体会谈判、会承诺、会修改计划,那么系统就必须保留谈判历史、状态快照和约束检查。否则,开发者既无法分析失败原因,也无法判断模型究竟是在“合理改变计划”还是在“前后矛盾地迎合对话对象”。
本章小结
可沟通智能体的难点并不只是生成自然语言,而是让语言、计划和执行保持一致并可审计。
从 Diplomacy 到 LLM 推理代理
test-time compute 的统一视角
Noam Brown 的工作之所以对今天的 LLM 特别重要,是因为它把“思考时间”重新引入了 AI 系统设计。无论是博弈搜索、tree-of-thought、tool-augmented planning 还是 verifier-guided decoding,本质上都在做同一件事:用更多的推理时计算换取更高质量的行动。
推理代理的一条通用原则
当环境复杂、错误代价高、一步做错很难补救时,最应该投入的资源不是再加一点训练数据,而是在推理时给系统更多搜索、验证和回溯空间。
不要误读“会说话”
语言流畅不代表战略成熟
Cicero 的成功容易让人误以为“只要语言模型足够强,社交推理自然会出现”。但实际上,系统之所以有效,是因为背后有明确的战略搜索与一致性约束。对现代 agent 也是一样:流畅的话术不能替代真正的规划能力。
本章小结
从外交游戏到 LLM agent,核心延续的是“推理时搜索 + 受约束的沟通”,而不是单纯更会说话。
总结与延伸
Noam Brown 的工作展示了 AI 在需要沟通的策略环境中的能力。Cicero 结合了博弈论推理和语言模型生成,代表了从“纯棋盘 AI”(AlphaGo、Libratus)到“社交 AI”的重要一步。推理时搜索的思想更是对整个 AI 领域产生了深远影响。
拓展阅读
- FAIR et al., “Human-level play in the game of Diplomacy by combining language models with strategic reasoning,” Science, 2022
- Brown & Sandholm, “Superhuman AI for heads-up no-limit poker: Libratus beats top professionals,” Science, 2018
- Snell et al., “Scaling LLM Test-Time Compute,” 2024