跳转至

[CS25] Strategic Games (Diplomacy) — Noam Brown, Meta

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 Stanford CS25
日期 2023

[CS25] Strategic Games (Diplomacy) — Noam Brown, Meta

引言:从扑克到外交——不完美信息博弈

Noam Brown 来自 Meta AI(FAIR),是 Libratus/Pluribus(扑克 AI)和 Cicero(外交游戏 AI)的核心研究者。本讲聚焦于外交游戏(Diplomacy)中 AI 面临的独特挑战。

外交游戏简介

外交是一款 7 人策略棋盘游戏,设定在一战前的欧洲。每个玩家控制一个国家,核心特点:

  • 同时行动:所有玩家同时提交行动,而非轮流
  • 自然语言沟通:玩家在每轮行动前可以自由交流、结盟、谈判
  • 背叛是允许的:承诺不具约束力,“破坏友谊的游戏”
  • 核心技能:在鼓励不信任的环境中建立信任

搜索时计算(Test-Time Compute)

从快思考到慢思考

搜索的价值

Noam 首先回顾了在扑克 AI 中的关键发现:

  • 训练后的 bot 在困难局面下瞬间做出决策(查表)
  • 人类在困难局面下会花时间思考(有时数分钟)
  • 给 bot 加入推理时搜索(test-time compute)——在当前局面重新计算更好的策略——可以用极少的参数达到大参数模型的效果

这一发现预示了后来的“思考 token”和 o1 等方向。

本章小结

搜索时计算是 AI 博弈中的关键技术,其思想已扩展到语言模型推理中。

Cicero:外交游戏 AI

系统架构

Cicero 的核心组件

Cicero 由两个主要模块组成:

  1. 战略推理引擎:预测所有玩家的行动,搜索最优策略(类似于扑克 AI 的均衡求解)
  2. 对话模型:基于大语言模型的自然语言生成,用于与其他玩家沟通

两个模块的协调是系统的关键——战略意图必须通过语言准确传达。

对话生成的挑战

对话模型的“愚蠢”泄露

一个有趣的技术难题:战略引擎会将完整的己方计划(包括对当前对话伙伴的敌对行动)输入对话模型。由于对话模型并不“理解”策略,它可能会直接告诉对手你要攻击他——这种“诚实得过分”的行为需要额外的过滤机制来防止。

实验结果

Cicero 在 webDiplomacy.net 上与人类玩家匿名对战:

  • 在多局游戏中达到前 10% 的表现水平
  • 大部分人类玩家未能识别出 Cicero 是 AI
  • Cicero 表现出了合作、谈判和适度欺骗的能力

本章小结

Cicero 是首个在需要自然语言沟通的多人策略游戏中达到人类水平的 AI 系统。

更广泛的意义

从游戏到现实

  • 外交游戏中的技能(谈判、信任建立、策略沟通)直接适用于商业、外交等现实场景
  • 语言和推理的结合是 AI 的下一个前沿——不仅要“说得好”,还要“想得深”
  • 搜索时计算的思想正在从博弈领域扩展到通用语言模型推理

本章小结

外交游戏之所以重要,不是因为它接近真实世界,而是因为它逼迫 AI 同时处理策略、沟通和不完全信息。

构建可沟通智能体的工程原则

战略状态与语言状态必须分离

像 Cicero 这样的系统揭示了一个很少被讨论但非常关键的工程原则:内部战略表示和对外语言表达不应完全混在一起。前者追求对局面和收益的准确建模,后者则需要考虑合作关系、时机与社会规范。如果二者不分层,系统很容易出现“把私有意图直接说出去”或“语言承诺与行动不一致”的问题。

多智能体系统中的双轨表示

今天很多 agent 系统也面临类似问题:规划器负责生成内部计划,执行器负责采取动作,对外接口负责与用户或其他 agent 沟通。把三者混成一个 prompt 虽然简单,但在复杂环境里往往不稳定、不可审计,也难以做权限控制。

需要可追踪的协商日志

如果智能体会谈判、会承诺、会修改计划,那么系统就必须保留谈判历史、状态快照和约束检查。否则,开发者既无法分析失败原因,也无法判断模型究竟是在“合理改变计划”还是在“前后矛盾地迎合对话对象”。

本章小结

可沟通智能体的难点并不只是生成自然语言,而是让语言、计划和执行保持一致并可审计。

从 Diplomacy 到 LLM 推理代理

test-time compute 的统一视角

Noam Brown 的工作之所以对今天的 LLM 特别重要,是因为它把“思考时间”重新引入了 AI 系统设计。无论是博弈搜索、tree-of-thought、tool-augmented planning 还是 verifier-guided decoding,本质上都在做同一件事:用更多的推理时计算换取更高质量的行动。

推理代理的一条通用原则

当环境复杂、错误代价高、一步做错很难补救时,最应该投入的资源不是再加一点训练数据,而是在推理时给系统更多搜索、验证和回溯空间。

不要误读“会说话”

语言流畅不代表战略成熟

Cicero 的成功容易让人误以为“只要语言模型足够强,社交推理自然会出现”。但实际上,系统之所以有效,是因为背后有明确的战略搜索与一致性约束。对现代 agent 也是一样:流畅的话术不能替代真正的规划能力。

本章小结

从外交游戏到 LLM agent,核心延续的是“推理时搜索 + 受约束的沟通”,而不是单纯更会说话。

总结与延伸

Noam Brown 的工作展示了 AI 在需要沟通的策略环境中的能力。Cicero 结合了博弈论推理和语言模型生成,代表了从“纯棋盘 AI”(AlphaGo、Libratus)到“社交 AI”的重要一步。推理时搜索的思想更是对整个 AI 领域产生了深远影响。

拓展阅读

  • FAIR et al., “Human-level play in the game of Diplomacy by combining language models with strategic reasoning,” Science, 2022
  • Brown & Sandholm, “Superhuman AI for heads-up no-limit poker: Libratus beats top professionals,” Science, 2018
  • Snell et al., “Scaling LLM Test-Time Compute,” 2024