[CS25] Strategic Games (Diplomacy) — Noam Brown, Meta

LaTeX 源码

字段	内容
作者/整理	基于公开课程资料整理
来源	Stanford CS25
日期	2023

引言：从扑克到外交——不完美信息博弈

Noam Brown 来自 Meta AI（FAIR），是 Libratus/Pluribus（扑克 AI）和 Cicero（外交游戏 AI）的核心研究者。本讲聚焦于外交游戏（Diplomacy）中 AI 面临的独特挑战。

外交游戏简介

外交是一款 7 人策略棋盘游戏，设定在一战前的欧洲。每个玩家控制一个国家，核心特点：

同时行动：所有玩家同时提交行动，而非轮流
自然语言沟通：玩家在每轮行动前可以自由交流、结盟、谈判
背叛是允许的：承诺不具约束力，“破坏友谊的游戏”
核心技能：在鼓励不信任的环境中建立信任

搜索时计算（Test-Time Compute）

从快思考到慢思考

搜索的价值

Noam 首先回顾了在扑克 AI 中的关键发现：

训练后的 bot 在困难局面下瞬间做出决策（查表）
人类在困难局面下会花时间思考（有时数分钟）
给 bot 加入推理时搜索（test-time compute）——在当前局面重新计算更好的策略——可以用极少的参数达到大参数模型的效果

这一发现预示了后来的“思考 token”和 o1 等方向。

本章小结

搜索时计算是 AI 博弈中的关键技术，其思想已扩展到语言模型推理中。

Cicero：外交游戏 AI

系统架构

Cicero 的核心组件

Cicero 由两个主要模块组成：

战略推理引擎：预测所有玩家的行动，搜索最优策略（类似于扑克 AI 的均衡求解）
对话模型：基于大语言模型的自然语言生成，用于与其他玩家沟通

两个模块的协调是系统的关键——战略意图必须通过语言准确传达。

对话生成的挑战

对话模型的“愚蠢”泄露

一个有趣的技术难题：战略引擎会将完整的己方计划（包括对当前对话伙伴的敌对行动）输入对话模型。由于对话模型并不“理解”策略，它可能会直接告诉对手你要攻击他——这种“诚实得过分”的行为需要额外的过滤机制来防止。

实验结果

Cicero 在 webDiplomacy.net 上与人类玩家匿名对战：

在多局游戏中达到前 10% 的表现水平
大部分人类玩家未能识别出 Cicero 是 AI
Cicero 表现出了合作、谈判和适度欺骗的能力

本章小结

Cicero 是首个在需要自然语言沟通的多人策略游戏中达到人类水平的 AI 系统。

更广泛的意义

从游戏到现实

外交游戏中的技能（谈判、信任建立、策略沟通）直接适用于商业、外交等现实场景
语言和推理的结合是 AI 的下一个前沿——不仅要“说得好”，还要“想得深”
搜索时计算的思想正在从博弈领域扩展到通用语言模型推理

本章小结

外交游戏之所以重要，不是因为它接近真实世界，而是因为它逼迫 AI 同时处理策略、沟通和不完全信息。

构建可沟通智能体的工程原则

战略状态与语言状态必须分离

像 Cicero 这样的系统揭示了一个很少被讨论但非常关键的工程原则：内部战略表示和对外语言表达不应完全混在一起。前者追求对局面和收益的准确建模，后者则需要考虑合作关系、时机与社会规范。如果二者不分层，系统很容易出现“把私有意图直接说出去”或“语言承诺与行动不一致”的问题。

多智能体系统中的双轨表示

今天很多 agent 系统也面临类似问题：规划器负责生成内部计划，执行器负责采取动作，对外接口负责与用户或其他 agent 沟通。把三者混成一个 prompt 虽然简单，但在复杂环境里往往不稳定、不可审计，也难以做权限控制。

需要可追踪的协商日志

如果智能体会谈判、会承诺、会修改计划，那么系统就必须保留谈判历史、状态快照和约束检查。否则，开发者既无法分析失败原因，也无法判断模型究竟是在“合理改变计划”还是在“前后矛盾地迎合对话对象”。

本章小结

可沟通智能体的难点并不只是生成自然语言，而是让语言、计划和执行保持一致并可审计。

从 Diplomacy 到 LLM 推理代理

test-time compute 的统一视角

Noam Brown 的工作之所以对今天的 LLM 特别重要，是因为它把“思考时间”重新引入了 AI 系统设计。无论是博弈搜索、tree-of-thought、tool-augmented planning 还是 verifier-guided decoding，本质上都在做同一件事：用更多的推理时计算换取更高质量的行动。

推理代理的一条通用原则

当环境复杂、错误代价高、一步做错很难补救时，最应该投入的资源不是再加一点训练数据，而是在推理时给系统更多搜索、验证和回溯空间。

不要误读“会说话”

语言流畅不代表战略成熟

Cicero 的成功容易让人误以为“只要语言模型足够强，社交推理自然会出现”。但实际上，系统之所以有效，是因为背后有明确的战略搜索与一致性约束。对现代 agent 也是一样：流畅的话术不能替代真正的规划能力。

本章小结

从外交游戏到 LLM agent，核心延续的是“推理时搜索 + 受约束的沟通”，而不是单纯更会说话。

总结与延伸

Noam Brown 的工作展示了 AI 在需要沟通的策略环境中的能力。Cicero 结合了博弈论推理和语言模型生成，代表了从“纯棋盘 AI”（AlphaGo、Libratus）到“社交 AI”的重要一步。推理时搜索的思想更是对整个 AI 领域产生了深远影响。

拓展阅读

FAIR et al., “Human-level play in the game of Diplomacy by combining language models with strategic reasoning,” Science, 2022
Brown & Sandholm, “Superhuman AI for heads-up no-limit poker: Libratus beats top professionals,” Science, 2018
Snell et al., “Scaling LLM Test-Time Compute,” 2024