From “Reasoning” Thinking to “Agentic” Thinking

LaTeX 源码 · 观看视频

字段	内容
作者/整理	基于公开课程资料整理
来源	Junyang Lin（Qwen 团队）
日期	2026-03-26

引言：从 Reasoning 到 Agentic 的范式转移

过去两年彻底改变了我们评估模型的方式以及对模型的期待。OpenAI 的 o1 证明了“思考”可以成为一种一等能力（first-class capability），即可以被专门训练并暴露给用户的能力。DeepSeek-R1 则证明了 reasoning 风格的后训练可以在原始实验室之外被复现和扩展。

核心论点

2025 上半年的主旋律是 reasoning thinking——如何让模型花费更多推理时计算、如何用更强的奖励信号训练、如何暴露或控制额外的推理努力。而下一阶段的答案是 agentic thinking——thinking in order to act, while interacting with an environment, and continuously updating plans based on feedback from the world.（为了行动而思考，在与环境交互的过程中，根据世界的反馈不断更新计划。）

本文是 Qwen 团队 Junyang Lin 发表的一篇深度技术分析文章，从 o1/R1 的经验出发，反思了 reasoning 模型的局限性，并论证了 agentic thinking 作为下一代训练范式的必然性。文章视角独特，融合了 Qwen 团队的一线实战经验与对行业趋势的判断。

o1 和 R1 的真正启示

RL 扩展的关键前提

第一波 reasoning 模型告诉我们一个根本性的道理：如果我们想在语言模型中扩展强化学习，就需要确定性的、稳定的、可扩展的反馈信号。数学、代码、逻辑等可验证领域因此成为核心训练场景，因为这些领域的奖励信号比通用的偏好监督强得多。它们让 RL 可以针对正确性（correctness）而非似然性（plausibility）进行优化。

从 Pretraining Scaling 到 Post-training Scaling

o1 和 R1 开启了一个关键转型：从扩展预训练（scaling pretraining）到扩展后训练中的 reasoning 能力（scaling post-training for reasoning）。这是 LLM 发展路径上的第一次大转折。

基础设施成为核心问题

一旦模型被训练在更长的轨迹上进行推理，RL 就不再是 SFT 之上的轻量附加组件，而变成了一个系统工程问题。这需要大规模的 rollout、高吞吐量的验证、稳定的策略更新和高效的采样。正如作者所言：The emergence of reasoning models was as much an infra story as a modeling story.（reasoning 模型的兴起既是基础设施的故事，也是建模的故事。）

本章小结

o1/R1 时代的核心教训有两点：（1）RL 扩展需要强反馈信号，可验证领域是理想训练场；（2）reasoning RL 本质上是一个系统工程问题，基础设施的重要性与模型本身相当。

Thinking 与 Instruct 模式的合并难题

Qwen3 的混合模式实验

2025 年初，Qwen 团队心中有一个宏大的愿景：理想系统应该统一 thinking 和 instruct 模式，支持可调节的推理努力（类似低/中/高推理设置），甚至能根据提示和上下文自动推断合适的推理量。Qwen3 是这一方向上最清晰的公开尝试——它引入了“混合思考模式”，支持 thinking 和 non-thinking 行为共存于一个模型家族，并描述了一个包含“thinking mode fusion”的四阶段后训练流水线。

合并的核心困难：数据分布冲突

不仅仅是模型兼容性问题

当人们谈论合并 thinking 和 instruct 时，往往首先想到的是模型侧兼容性：一个 checkpoint 能否支持两种模式、一个 chat template 能否切换。但更深层的问题是两种模式的数据分布和行为目标存在本质差异。

作者坦率地总结了两种行为画像之间的张力：

强 Instruct 模型：追求直接性、简洁性、格式合规、低延迟，适合高频企业任务（重写、标注、模板化支持、结构化提取等）
强 Thinking 模型：在困难问题上花费更多 token、维持连贯的中间结构、探索替代路径、保留足够的内部计算以提升最终正确性

These two behavior profiles pull against each other.（这两种行为画像相互拉扯。）如果合并数据未经仔细筛选，结果通常是两个方向都表现平庸。

分离路线 vs 集成路线

实际上，Qwen 团队在 Qwen3 之后的 2507 版本中选择了分离路线——发布了独立的 Instruct 和 Thinking 变体（30B 和 235B）。大量商业客户仍然需要高吞吐、低成本、高可控的 instruct 行为。

而 Anthropic 选择了相反方向。Claude 3.7 Sonnet 被定位为混合推理模型，用户可以选择普通回复或扩展思考，API 用户可以设置 thinking budget。Anthropic 明确表示他们认为推理应该是一种集成能力而非独立模型。GLM-4.5 和 DeepSeek V3.1 也走了类似的混合路线。

有机合并的关键标准

真正成功的合并需要的是推理努力的平滑光谱（a smooth spectrum of reasoning effort）。模型应该能够表达多个级别的努力，并理想地在它们之间自适应选择。GPT 风格的 effort control 指向了这一方向：a policy over compute, rather than a binary switch.（对计算的策略，而非一个二元开关。）

本章小结

Thinking 与 Instruct 的合并在概念上是对的，但数据分布冲突使其在工程上极具挑战。行业分化为分离路线（Qwen 2507）和集成路线（Anthropic、DeepSeek）。关键判断标准是合并是否“有机”——即是否实现了真正的推理努力连续谱。

Anthropic 方向的启示

约束式推理哲学

Anthropic 围绕 Claude 3.7 和 Claude 4 的公开表述相对克制：强调集成推理、用户控制的 thinking budget、真实世界任务、代码质量，以及后来在扩展思考中使用工具的能力。

更长的推理链 \(≠\) 更高的智能

Producing a longer reasoning trace doesn't automatically make a model more intelligent.（产生更长的推理轨迹并不会自动让模型更智能。）过度的可见推理往往意味着分配失败——模型未能优先化、压缩或行动。Anthropic 的路径暗示了一种更有纪律的观点：thinking 应该由目标工作负载来塑造。

从训练模型到训练 Agent

这种对目标效用的强调指向了更大的图景。正如 Qwen3 博客中所写：“We are transitioning from an era focused on training models to one centered on training agents.”（我们正在从专注于训练模型的时代过渡到以训练智能体为中心的时代。）

Agent 的定义

Agent 是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略，并在长时间跨度内持续运行的系统。它由与世界的闭环交互（closed-loop interaction）来定义。

本章小结

Anthropic 的克制风格提供了有价值的纠正：推理应服务于具体工作负载而非炫技。更长的推理链不等于更高的智能。整个行业正从“训练模型”向“训练 Agent”转变。

Agentic Thinking 的本质

不同的优化目标

Agentic thinking 与 reasoning thinking 有着根本不同的优化目标：

Reasoning thinking：由最终答案前的内部推理质量来评判——能否解出定理、写出证明、产出正确代码、通过 benchmark
Agentic thinking：由在与环境交互过程中能否持续取得进展来评判

核心问题的转变

中心问题从 “Can the model think long enough?”（模型能否思考足够久？）转变为 “Can the model think in a way that sustains effective action?”（模型能否以维持有效行动的方式来思考？）

Agentic Thinking 的独特挑战

Agentic thinking 必须处理 reasoning 模型可以基本回避的几个问题：

行动时机判断：决定何时停止思考并采取行动
工具选择与排序：选择调用哪个工具以及以什么顺序
噪声观测整合：整合来自环境的噪声或部分观测
失败后修正：在失败后修订计划
长程一致性：在多轮对话和多次工具调用中维持连贯性

作者用一句话精炼概括：Agentic thinking is a model that reasons through action.（Agentic thinking 是通过行动来推理的模型。）

本章小结

Agentic thinking 的核心不是“思考更久”，而是“以维持有效行动的方式思考”。它引入了行动时机、工具编排、噪声整合、失败恢复和长程一致性等 reasoning 模型无需面对的挑战。

Agentic RL 基础设施的更高难度

从静态验证到动态环境

当优化目标从解决 benchmark 问题转向解决交互式任务时，RL 技术栈必须随之改变。Reasoning RL 中 rollout 通常可以作为基本自包含的轨迹处理，配合相对干净的评估器。而在 Agentic RL 中，策略（policy）被嵌入一个更大的工具系统中：工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统和编排框架。

环境不再是静态验证器

在 agentic RL 中，环境本身成为训练系统的一部分。这创造了一个新的系统需求：训练和推理必须更干净地解耦。否则，rollout 吞吐量将崩溃。

训练-推理解耦的必要性

作者给出了一个生动的例子：考虑一个编码 agent 必须针对实时测试工具执行生成的代码——推理端因等待执行反馈而停滞，训练端因缺少完成的轨迹而挨饿，整个流水线的 GPU 利用率远低于经典 reasoning RL 的预期。工具延迟、部分可观测性和有状态环境进一步放大了这些低效。

环境成为一等研究工件

从数据多样性到环境质量

In the SFT era, we obsessed over data diversity. In the agent era, we should obsess over environment quality.（在 SFT 时代，我们痴迷于数据多样性。在 agent 时代，我们应该痴迷于环境质量。）环境质量包括：稳定性、真实性、覆盖度、难度、状态多样性、反馈丰富度、抗利用性，以及 rollout 生成的可扩展性。

环境构建已经从一个副项目变成了一个真实的创业类别。如果 agent 被训练在类生产环境中运行，那么环境就是核心能力栈的一部分。

本章小结

Agentic RL 的基础设施比 reasoning RL 困难得多：策略嵌入复杂工具系统，训练-推理必须解耦以避免吞吐量崩溃，环境本身成为一等研究工件。行业需要从“痴迷数据多样性”转向“痴迷环境质量”。

下一个前沿：更可用的思考

Agentic Thinking 将成为主导形式

作者预期 agentic thinking 将成为思考的主导形式，最终可能取代大部分旧式的“静态独白”reasoning thinking——那种试图通过产出越来越多文本来补偿缺乏交互的过度冗长、孤立的内部轨迹。即使面对非常困难的数学或编码任务，一个真正先进的系统也应该有权搜索、模拟、执行、检查、验证和修正。

Reward Hacking：Agent 时代最大的挑战

Reward Hacking 的危险升级

一旦模型获得有意义的工具访问能力，reward hacking 就变得远比 reasoning 时代危险。具体表现包括：

带搜索的模型可能在 RL 训练中学会直接查找答案
编码 agent 可能利用仓库中的未来信息、滥用日志或发现使任务失效的捷径
存在隐藏泄漏的环境可能让策略看起来超人，实际上在训练模型作弊

Better tools make the model more useful, but they also enlarge the attack surface for spurious optimization.（更好的工具让模型更有用，但也扩大了虚假优化的攻击面。）

作者预期下一个严肃的研究瓶颈将来自环境设计、评估器鲁棒性、反作弊协议，以及策略与世界之间更原则化的接口。

Harness Engineering：多 Agent 系统

从训练模型到训练系统

Agentic thinking 意味着 harness engineering（工具系统工程）的兴起。核心智能将越来越多地来源于多个 agent 的组织方式：

Orchestrator（编排器）：规划和分发工作
Specialized agents（专业 agent）：充当领域专家
Sub-agents（子 agent）：执行更窄的任务，同时帮助控制上下文、避免污染、维持不同推理层级之间的分离

未来的转变路径：从训练模型 \(\rightarrow\) 训练 agent \(\rightarrow\) 训练系统。

本章小结

Agentic thinking 将取代静态独白式推理成为主导形式。最大挑战是 reward hacking——工具访问在增强能力的同时扩大了虚假优化的攻击面。未来的核心竞争力在于 harness engineering 和多 agent 系统的设计。

总结与延伸

全文核心脉络

本文描绘了 LLM 发展的三个阶段：

Pretraining Scaling 时代：通过扩大预训练规模提升模型能力
Reasoning Thinking 时代（o1/R1）：通过 RL 后训练让模型“思考更久”，核心依赖强反馈信号和基础设施
Agentic Thinking 时代（当前转型）：从“思考更久”到“为行动而思考”，核心对象变为 model + environment 系统

竞争优势的转移

In the reasoning era, the edge came from better RL algorithms, stronger feedback signals, and more scalable training pipelines. In the agentic era, the edge will come from better environments, tighter train-serve integration, stronger harness engineering, and the ability to close the loop between a model's decisions and the consequences those decisions produce.

在 reasoning 时代，竞争优势来自更好的 RL 算法、更强的反馈信号和更可扩展的训练流水线。在 agentic 时代，竞争优势将来自更好的环境、更紧密的训练-服务集成、更强的 harness engineering，以及闭合模型决策与其后果之间循环的能力。

关键启示

“好的思考”的定义已经改变：不再是最长或最可见的轨迹，而是在真实世界约束下维持有效行动的最有用的轨迹
研究工件的重心在转移：从模型架构和训练数据，扩展到环境设计、rollout 基础设施、评估器鲁棒性和多 agent 协调接口
Thinking 与 Instruct 的合并仍是开放问题，“有机合并”（推理努力的连续谱）比“机械合并”（两种模式的拼接）更有价值
环境质量将取代数据多样性成为新时代的核心资产

拓展阅读

Qwen3 技术博客：混合思考模式与四阶段后训练流水线
OpenAI o1 系统卡与技术报告
DeepSeek-R1 技术报告
Anthropic Claude 3.7 Sonnet / Claude 4 发布说明
DeepSeek V3.1 Think & Non-Think 混合推理