RL 专题|2025 "青稞" AI 嘉年华
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | 青稞社区 |
| 日期 | 2025 |

引言:大模型时代的强化学习浪潮
2025年,强化学习(RL)在大语言模型(LLM)领域掀起了一场技术革命。从年初DeepSeek R1的发布开始,各家旗舰模型的训练都离不开强化学习。在2025年"青稞"AI嘉年华的RL专题讨论中,四位在强化学习领域经验丰富的嘉宾——崔干曲(上海人工智能实验室)、胡建(OpenRLHF项目发起人,Emilia Research)、郑楚杰(通义千问团队)和李英儒(NovaStar Research)——围绕强化学习算法设计、模型架构适配、训练框架演进、训练稳定性以及未来发展等核心话题,进行了深入的分享与讨论。
本次讨论的核心议题
- 强化学习算法设计的出发点与心路历程
- 模型架构如何适配强化学习训练
- RL训练框架的现状与未来
- Entropy、Mismatch等关键指标与训练稳定性
- 2026年强化学习的发展方向展望
嘉宾介绍与2025年关键进展
崔干曲(上海人工智能实验室,青年科学家):毕业于清华大学,主要研究强化学习在大模型推理能力提升上的算法与机理。代表工作包括PRIME(复刻O1的开创性工作)、Implicit PRM(隐式过程奖励模型)以及首个达到IPHO金牌水平的开源物理推理模型P1。
胡建(网名"初期",OpenRLHF项目发起人):现任职于Emilia Research,长期处于RL的infra与算法联合优化的交叉领域。提出了Reinforce++等有影响力的算法,并主导了OpenRLHF框架的设计与开发。
郑楚杰(通义千问团队):专注于大模型RL训练的稳定性研究,核心关注如何让RL训练长期稳定地持续下去。提出了GSPO算法,并应用于千问2507等模型的发版训练。
李英儒(NovaStar Research):强化学习理论算法出身,关注训退不一致(Train-Inference Mismatch)问题以及RL优化理论在大模型下的适配。致力于从第一性原理出发,为现有的RL recipe提供理论解释与指导。
2025年RL领域的共识与趋势
四位嘉宾不约而同地指出:2025年最有影响力的进展大多不在算法层面,而在Infra(基础设施)和数据层面。RL算法本身仍然以PPO(2017年)甚至Policy Gradient(提出数十年)为基础,但如何在现代GPU上实现高效稳定的大规模训练,这方面的创新和突破是巨大的。代表性进展包括:
- 训退不一致(Train-Inference Mismatch):被广泛认识为影响训练稳定性的关键问题
- MoE模型的RL稳定性:Mixture-of-Experts架构给RL训练带来了特有的挑战
- Hybrid架构:超长上下文与Agent场景下的RL稳定性
- Importance Sampling:Truncated IS等技术从infra观察中产生算法改进
本章小结
2025年是大模型RL的"文艺复兴"年——理论基础早已存在,但在大模型的特殊场景下进行适配和工程化落地才是真正的创新前沿。Infra与算法的联合优化成为主流范式,纯粹的理论推导已不足以驱动进展,必须结合底层系统的观察来指导算法改进。
强化学习算法设计
PRIME:从Value Model视角出发
崔干曲团队在2024年初(DeepSeek R1之前)试图复刻O1时,面临的核心问题是:如何突破Sparse Reward导致的Credit Assignment困难?
传统方法(如GRPO)仅使用最终的Verifiable Reward作为训练信号,这意味着模型只能从最终结果获得反馈,无法精确知道推理过程中的哪些步骤是正确的。PRIME的核心思路是引入Implicit PRM(隐式过程奖励模型),通过Log Probability的方式自动进行Credit Assignment。
PRIME的核心设计思想
- 问题:PPO的Value Model在大语言模型上训练初期预测极差,导致reward先下降再回升(“dip-then-recover”现象),引入额外的训练不稳定性
- 方案:用Log Probability建模Value,而非传统的Linear Head方式。训练前后,Reward Model仍然是语言模型形式,避免了丢弃embedding层接linear head的粗暴做法
- 优势:这是一种更自然、更健壮的Value建模方式,尤其在训练初期不会出现严重的Value prediction偏差
从今天的视角回看,PRIME其实是一种Value Model的替代建模方式。虽然当前GRPO等无Value Model的方法已经能训得很好,但崔干曲认为,在未来更复杂的场景(如Agentic RL中存在内部feedback的情况),如何将多源feedback转化为Process Reward或Value Estimation,仍然是一个值得深入研究的问题。
此外,PRIME与Uncertainty Distillation方法有深层的联系——两者都在最小化Policy Model与Teacher/Reward Model之间的KL散度,本质上是一种将Reward Model知识蒸馏到Policy Model的过程。
Value-based Actor-Critic方法的未来
当前GRPO等方法因简单高效而大行其道,但Value-based方法并非过时。崔干曲预测,随着任务复杂度提升(更多的feedback来源、更长的交互链路),社区将重新关注Value-based Actor-Critic方法。这一方向仍有大量可深挖的空间。
Reinforce++:回归经典的智慧
胡建设计Reinforce++的出发点带有"回归经典"的色彩。在传统Multi-Agent RL时代,PPO在大规模游戏场景中表现非常稳定。来到大模型时代后,胡建的直觉是:经典方法中的许多细节设计(如Global Batch Norm)是经过前人深思熟虑的,应该被继承而非丢弃。
Reinforce++的设计哲学
- 从PPO出发,去掉Critic(避免大模型上Value Model的训练困难)
- 保留PPO中经过验证的工程技巧:Global Batch Norm等
- 验证了经典技巧在新场景下仍然有效,"长期存在的东西一定有它存在的道理"
胡建进一步提出了一个重要观点:未来的RL算法不再是一个单独的算法,而是一组优良Recipe的组合。例如:Truncated Importance Sampling + On-Policy Learning + Batch Norm + 合适的Infra实现,共同构成一套稳定的训练方案。
GSPO:Sequence Level优化的回归
郑楚杰团队在训练千问2507版本时发现,GRPO在后期总会出现稳定性问题。他们怀疑根本原因在于优化目标本身:GRPO的优化目标本应是Sequence Level的,但与Token Level的优化目标之间缺乏直接的理论关联。
GSPO的核心创新
- 回归第一性原理:直接推导Sequence Level的优化目标
- 去掉KL Penalty:在235B及更大模型上,去掉KL Penalty后训练速度显著提升,且GSPO能保持稳定训练
- 实际应用:GSPO被应用于千问2507发版以及后续模型(如Consonant X)的训练
GSPO的局限性
初版GSPO没有考虑训推不一致(Train-Inference Mismatch)问题。后续在内部迭代中增加了对Mismatch的修复,产生了GSPO-VR等改进算法,进一步提升了稳定性。
从第一性原理出发的算法设计
李英儒从强化学习理论研究者的视角出发,强调了两个核心观点:
第一,回归第一性原理。许多当前的训练崩溃问题源于对基本概念的忽视。例如,很多框架在Recompute阶段将重新计算的概率当作Rollout概率使用,这不符合直觉——真正产生采样的概率应来自推理引擎(如vLLM),而非训练引擎的Recompute。
第二,理论应为实践服务。李英儒认为,做理论不是为了复杂而复杂,而是为了:(1) 提供简单的解释;(2) 为设计更简单有效的Scalable算法提供方法论指导。
Off-Policy Issue的历史渊源
Train-Inference Mismatch问题本质上是经典的Off-Policy Issue在大模型时代的新表现。这一问题在传统RL中已经研究了数十年。李英儒自2019年起就在游戏RL中研究类似问题(Divergence of Entity),当时做的工作与现在的KL Penalty方法非常相似。从TRPO(2015年)到现在的各种IS修正方法,核心都是关于单调性能提升的保证。
"好的RL算法"应具备什么特点?
四位嘉宾达成了高度一致的共识:
好的RL算法(Recipe)的标准
- 简单:每个Trick应易于实现,新手看一眼就能理解其作用
- 符合直觉:设计应有清晰的motivation,不是黑箱式的"加了就有效"
- 有效:能在各种模型规模和任务上稳定训练,并产生真实的性能收益
- 组合性:好的"算法"实际上是一套Recipe——基本优化目标(如Reinforce + IS Correction)加上一系列经过验证的Trick(PPO Clip、Batch Norm、Language Consistency Penalty等)
郑楚杰进一步指出:与其说"好的RL算法",不如说"好的RL配方(Recipe)"。现实中,大家摸索出一套稳定的配方后就开始使用,并不会给这套Trick的组合专门起个名字。
本章小结
RL算法设计正在从追求单一突破性算法转向追求一套稳定、简洁、可组合的Recipe。PRIME代表了Value Model建模的新思路,Reinforce++体现了回归经典的智慧,GSPO展示了第一性原理推导的力量。四位嘉宾一致认为,未来的RL算法创新将更多来自Infra与算法的联合优化,而非纯粹的理论推导。
模型架构与强化学习的适配
算法适配架构 vs. 架构适配算法
崔干曲提出了一个有趣的视角转换:通常我们考虑的是"让算法适应模型架构",但很少有人反过来想"让架构适应算法"。他认为架构设计更多受到Infra和硬件效率的驱动(训练效率、推理效率、多模态支持、长文本处理),RL算法处于相对"靠后"的位置——在架构确定之后再进行适配。
Hybrid架构带来的新挑战
在Hybrid架构(如Mamba + Attention混合模型)上做RL训练,复杂度远高于Full Attention架构。Hybrid架构涉及State的更改和回滚操作,高效计算这些操作并非trivial。这也意味着RL训练与架构设计之间存在Trade-off——RL研究者需要与架构团队协调,确保新架构对后续RL训练友好。
RL友好即推理友好
胡建从infra角度给出了一个精辟的判断:
对RL友好的模型架构 = 对推理友好的模型架构
在当前Long Context、Long Thought输出的场景下,RL训练的大部分算力瓶颈集中在生成(Generation/Rollout)部分。因此,提升RL训练效率本质上就是提升推理效率。推理友好的架构创新包括:
- Linear Attention / Mamba:降低长序列的计算复杂度
- 千问3 Next:在推理友好性方面的架构创新
- MTP(Multi-Token Prediction):DeepSeek提出,对推理效率有显著提升
胡建同时提出了一个前瞻性观点:如果未来Diffusion LLM取代了Autoregressive范式,整个RL训练的瓶颈可能从推理优化转向训练优化——这将是一个"天翻地覆"的变化。
两种看待RL与大模型关系的视角
郑楚杰提出了两种对立的视角:
视角一:RL是大模型的辅助。先确定模型架构(MoE、MTP等推理加速技巧),再在此基础上适配RL算法。这是当前工业界的主流做法。
视角二:大模型是RL的辅助。如果我们的终极目标是通过RL实现AGI,那么大模型只是提供先验知识的手段。在这种视角下,应该使用最有利于RL训练的模型架构(如Dense Model,不加MTP等加速技巧)。但这种做法在实践中因成本太高而少有人采用。
模型架构变化影响RL特性
郑楚杰的一个重要观察:模型架构(以及基模预训练)的变化会连带改变后续RL训练的特性。因此,RL问题和架构问题不能分开来看——每一代模型都需要针对其特有的问题做RL方面的改进。
MoE架构的RL训练困境
李英儒从优化理论的角度解释了为什么MoE模型难以进行RL训练:
MoE难训的理论根源
- MoE架构的离散选择性(Router的Expert选择)从根本上就给优化带来了困难
- 从Off-Policy算法的角度看,MoE实际上缩小了Trust Region——Expert的选择变化会导致模型行为的剧烈变化
- 现有的Routing Replay等技巧都是在解决这一Trust Region缩小的问题
- 这个问题不是RL独有的——MoE在Pretraining中就已经遇到类似的路由平衡问题
李英儒对未来持乐观态度:可能会出现一些新的Sparse架构,既能保持Sparse激活的效率优势,又能在优化上具有更好的特性(例如,在Router上更好地近似梯度)。
本章小结
模型架构与RL训练之间存在深层的耦合关系。当前工业界以"架构优先,RL适配"为主流范式。RL友好性本质上等价于推理友好性——架构层面的创新(Linear Attention、MTP等)直接惠及RL训练效率。MoE架构给RL带来了独特的Trust Region缩小问题,需要算法与架构协同设计来解决。
强化学习训练框架
框架演进:从TRL到现代框架
崔干曲作为RL训练框架的"资深用户",见证了从TRL到OpenRLHF再到veRL、SLIME的演进历程。他的核心观察是:
训练框架的关键进化
OpenRLHF的历史性贡献:率先引入了"高效推理引擎(vLLM)+ 训练引擎(DeepSpeed)解耦并拼接"的设计范式。体验过TRL初期训练效率的人会深刻感受到,这是一个代际跃迁。此后,几乎所有主流框架都采用了这种推理-训练解耦的架构。
OpenRLHF的设计哲学
胡建分享了OpenRLHF的设计初衷:当时作为用户,没有一个框架能让RL工程师用得"爽和顺手"。设计的核心思路是:
- 从RL工程师的视角出发:不是System Engineer的视角,而是"以前做PPO跑游戏环境的人"的视角
- 技术选型:Ray(分布式调度)+ vLLM(推理引擎)+ DeepSpeed(训练引擎)的组合
- 易用性优先:在保证性能够用的前提下,持续优化易用性
DeepSpeed到Megatron-Core的演进
胡建解释了为何OpenRLHF最初选择DeepSpeed而非Megatron-Core:当时的Megatron-Core对RL工程师极不友好。后来NVIDIA工程师借鉴了DeepSpeed的优势进行改进,使得Megatron-Core在后来的veRL等框架中变得可用。技术选型需要因时制宜——选择当前最适合目标用户群体的方案。
理想训练框架的特征
综合四位嘉宾的观点,理想的RL训练框架应具备以下特征:
好的RL训练框架
- 简洁性:框架不应过于臃肿,Data Flow清晰,方便Debug
- 可Debug性:Rollout、Training、Recompute、Reward/Advantage计算等每一步都能打出中间结果并存储——这是正确性的保障
- 易用性:新手能快速上手,算法研究者能方便地修改调度流程和算法逻辑
- 借助开源力量:使用开源的推理引擎(vLLM/SGLang)和训练引擎(Megatron),而非自己从零搭建——开源社区的测试覆盖和迭代速度远超内部团队
- 社区生态:活跃的Contributor、良好的讨论氛围、持续的维护——这决定了框架的长期生命力和影响力
当前框架的痛点
- veRL等框架逐渐变得臃肿,当需要对调度流程进行修改时"非常难受"
- 正确性问题——有团队使用正确性不满足的框架训练,导致模型训不上去且找不到原因
- 大规模训练(600B+模型)需要商业公司内部Infra团队做Megatron-Core的定制优化,开源框架难以覆盖
框架的未来方向
李英儒从强化学习特性出发,指出了框架需要支持的新需求:
- 异步训练:Rollout与Training的分离式架构,支持异步数据流
- Replay Buffer:支持数据复用以提升Sample Efficiency
- 可扩展的Rollout:通过增加Rollout节点来线性扩展采样能力
- 长程Agentic支持:Agent与Sandbox的长时间交互(coding环境数十小时交互),对框架的调度和资源管理提出新挑战
从游戏RL到大模型RL的框架演进
李英儒指出,Agentic RL的框架需求越来越像传统游戏RL——Agent跟环境交互、异步采样、分离式架构。但新的挑战在于:除了GPU上的Generation Bottleneck,还增加了环境交互Bottleneck(如等待代码编译、Sandbox反馈等),这使得Sample Efficiency问题更加突出。
本章小结
RL训练框架经历了从TRL到OpenRLHF再到veRL/SLIME的快速演进。推理-训练解耦是里程碑式的架构创新。好的框架需要在简洁性、可Debug性、易用性之间取得平衡,同时借助开源社区的力量保持迭代速度。未来的框架需要支持异步训练、长程Agentic交互等新场景。
训练稳定性:Entropy与Mismatch
Entropy:从Collapse到Explode
Entropy(熵)是RL训练中一个被广泛关注的指标。崔干曲介绍了对Entropy认知的演变:
早期关注Entropy Collapse(2024年中):RL训练初期Entropy会快速下降(collapse),导致模型丧失探索能力。当时的应对措施包括Clip Higher(DAPO中的做法)以及推导Entropy变化公式来指导干预。
现在更关注Entropy Explode(2025年下半年):在大规模MoE模型上进行RL训练时,Entropy的急剧升高往往伴随着训练失败。
Entropy的双面性
- Entropy是Exploration的必要条件(但非充分条件):没有Entropy就不可能探索新轨迹
- 但Entropy急剧升高同样危险:这往往意味着模型状态变得不稳定(如Language Mixing——英文Query下冒出大量中文回复)
- 理想状态:给定固定的Prompt集合和生成长度,Entropy应呈现平稳或缓慢下降的趋势(因为模型逐渐收敛)
Entropy是"结果"而非"原因"
郑楚杰和李英儒都强调了一个重要观点:Entropy是模型学习的结果,而不是原因。
基于Entropy做调整可能并不本质
郑楚杰认为:与其直接干预Entropy,不如去解决导致Entropy异常的根本原因。例如:
- Entropy急剧上升 \(\rightarrow\) 可能是Language Mixing等模型状态不稳定的结果
- Entropy下降过快 \(\rightarrow\) 可以通过扩大Exploration Space(增大Batch Size、增加Prompt多样性、增加生成长度)来自然缓解
从优化理论的角度(李英儒):Policy在词表维度的Simplex上做优化,Entropy反映了优化Iterate距离Simplex内部的远近。收敛时Entropy自然下降。但使用Interior Point Method等手段可以让优化过程在Simplex内部移动,从而保持较高的Entropy。
MoE模型的Entropy控制
崔干曲分享了在大规模MoE模型上控制Entropy的实战经验:
- 冻结Router:不训练Router是一种比较轻量但有效的方式
- 控制Entropy在稳定值附近:借鉴之前的Entropy控制方法,将Entropy稳定在合理范围
- 尝试过Routing Replay、R3等方法,发现它们只能延缓而非根治稳定性问题
胡建补充了他的实践方案:
MoE RL训练的轻量方案
- 纯Online Learning:每次做一个更新,IS始终为1,从根本上避免Expert选择变化的问题
- TIS + Mask:对偏离程度较高的Token进行Mask
- Sequence Level Filter:通过IS的几何均值,将偏离过大的整条轨迹直接Filter掉(与GSPO思路一致)
- 在Online Learning下,不用Clip Higher,Entropy也能保持稳定
训推不一致(Train-Inference Mismatch)
训推不一致是2025年下半年被广泛认识到的关键问题。其核心是:训练引擎和推理引擎由于精度实现不同,对同一个Token的概率计算存在差异,这个差异会在训练过程中累积放大。
Mismatch的动态特性
李英儒指出一个关键观察:Mismatch不是从一开始就很高的——如果它纯粹是Infra层面的精度问题,应该从一开始就存在且保持恒定。但实际上,Mismatch会在训练后期突然急剧增大。这说明Mismatch是一个动态现象,与优化过程密切相关:
- 精度差异在不同引擎上产生微小的Gradient Noise
- 这个Noise在训练过程中累积,将模型推向精度容易放大的参数区域
- 到达该区域后,Mismatch从微小变为显著,训练随之崩溃
郑楚杰补充了对Mismatch的实践观点:完全消除Mismatch在当前Infra条件下几乎不可能(且会严重降低推理速度),因此实际应做的是将Mismatch控制在合理范围内,防止其突然急剧增大。他还观察到,Mismatch的突然增大可能与Overfitting相关。
关键监控指标总结
RL训练中需要密切监控的指标
- Entropy:监控模型的探索/收敛状态,关注异常的急升或急降
- PPO KL:Policy更新的步幅控制
- vLLM KL:推理引擎与训练引擎之间的Mismatch程度
- Reference Model KL:训练模型与参考模型之间的距离
- Grad Norm:梯度的范数,反映优化稳定性
- TIS(Truncated Importance Sampling):Off-Policy程度
- Response Length:生成长度变化
当任何一个指标出现异常抖动,"基本上这个模型就被砍了一刀,可能要炸了。"(胡建)
本章小结
训练稳定性是大模型RL的核心工程挑战。Entropy作为结果指标,反映了模型的探索-收敛状态,但直接干预Entropy可能不是本质解法。MoE模型的RL训练尤其困难,冻结Router和Online Learning是目前较为有效的轻量方案。训推不一致是一个动态累积的现象,需要从Infra精度对齐和优化稳定性两个维度联合解决。
2026年展望:强化学习的未来方向
更难的任务、更开放的环境
崔干曲的展望以"Goal-Oriented"为关键词:强化学习的本质特征在于它是目标导向的,不同于Pretraining和SFT的行为克隆范式。在模型需要完成收集数据极其困难的任务时,必须切换到RL这种目标导向的方法。
2026年RL的主线方向(崔干曲)
- 更难的任务:模型需要在Sandbox中进行长时程交互,仅关注最终产出
- 更开放的场景:更复杂的外部环境、更丰富的Feedback来源
- 更长程的交互:Memory系统、Self-Evolve(自我进化)
- Infra与架构的挑战:这些自由度的增加会在Infra和模型架构层面带来巨大挑战
Scaling:Infra与数据的双重瓶颈
胡建认为2026年RL的核心仍然是Scaling问题:
- Infra Scaling:如何实现稳定的大规模长期训练
- 数据Scaling:Agentic RL需要大量高质量的环境(真实或合成),如何扩大环境规模是关键瓶颈——"总是拿小数据学习,上限就在那里"
- 算法趋于收敛:RL算法层面的大改动可能不多了,更多是小的方面创新(如Process-based Value Model)
全异步RL:工业界的下一个战场
郑楚杰做出了一个具体的技术预判:
2026年的工业界RL方向(郑楚杰)
全异步RL(Fully Asynchronous RL)将成为主流。核心矛盾是计算利用率与算法性能之间的权衡:
- 全异步框架下,一段模型回复可能由多个模型版本生成——天然引入Off-Policy问题
- 需要研究在异步场景下的算法适配:给定一套算法配方,Off-Policy的容忍程度如何?
- 当前开源框架对全异步RL的支持尚不完善,这将是未来数月的重点工作
- 优先打上计算效率,才能讨论Scale的问题
Agentic RL与长程Credit Assignment
李英儒的展望聚焦于Agentic RL和长程问题:
- 环境交互成为新的Bottleneck:从Reasoning RL到Agentic RL,瓶颈从GPU Generation转向环境交互(等待编译、Sandbox反馈等),Sample Efficiency问题更加突出
- Effective Horizon急剧增长:Agent可能需要"写三天的代码"才能完成任务,真正的分叉决策点(20%的关键节点)形成了极长的Effective Horizon
- Credit Assignment成为关键挑战:在长程Agentic场景下,仅有Outcome Reward的Token-Level Advantage估计可能不再足够,需要更细粒度的Credit Assignment和Variance Reduction方法
从传统RL汲取智慧
李英儒反复强调,大模型RL面临的很多问题在传统RL中已有深入研究。Agentic RL的框架需求越来越像游戏RL(Agent与环境交互、异步采样、分离式架构),而Sample Efficiency、Credit Assignment、Variance Reduction这些经典话题在新场景下获得了新的生命力。
本章小结
2026年的RL发展将沿三条主线展开:(1) 任务复杂度持续提升,从Reasoning走向Agentic;(2) Infra和数据的Scaling成为核心瓶颈,全异步RL将成为工业界主流;(3) 长程Credit Assignment等经典RL问题在新场景下重获关注。算法层面的大变革可能趋缓,但Recipe的持续优化和理论解释仍有广阔空间。
总结与延伸
核心洞察
本次青稞RL专题讨论呈现了大模型RL领域当前最前沿的思考和实践经验。以下是贯穿全场讨论的核心洞察:
大模型RL的五大核心认知
- Infra决定上限:2025年最具影响力的进展来自Infra而非算法。训推不一致、MoE稳定性等问题的解决方案都源于对底层系统的深刻理解
- 算法是Recipe:单一算法的时代已过,取而代之的是一套经过验证的Trick组合。好的Recipe应该简单、符合直觉且有效
- 第一性原理不过时:从GSPO的Sequence Level优化目标推导,到训推不一致的理论分析,回归基本原理始终是解决新问题的有力武器
- 经典RL理论的"文艺复兴":PPO中的Batch Norm、Policy Gradient的Variance Reduction、Off-Policy Correction等数十年前的技术在大模型场景下焕发新生
- Co-design是趋势:算法与Infra的联合优化、模型架构与RL训练的协同设计将成为常态
开放问题
讨论中暴露出若干尚未解决的开放问题:
- Token-Level Value Model的根本困难:从统计学习理论角度,训好Token-Level Value需要的采样量与序列长度呈多项式关系,在当前计算预算下存在Fundamental Limit
- Exploration的缺失:当前大模型RL几乎没有真正的Exploration,主要依赖模型自身的先验——未来如何引入结构化的探索机制?
- Diffusion LLM对RL范式的影响:如果Autoregressive范式被取代,RL的整个训练Pipeline可能需要重构
- 全异步训练下的Off-Policy容忍度:给定一套算法配方,Off-Policy程度可以容忍到什么地步?
- 长程Agentic场景的Credit Assignment:Agent执行数天任务时,如何有效地将最终Reward回传到关键决策点?
拓展阅读
- PRIME:崔干曲等人的工作,通过Implicit PRM实现自动Credit Assignment
- Reinforce++:胡建提出,回归PPO经典技巧的精简RL算法
- GSPO:郑楚杰等人提出的Sequence-Level优化算法,去掉KL Penalty提升训练效率
- OpenRLHF:开源RL训练框架,首创推理-训练引擎解耦架构(https://github.com/OpenRLHF/OpenRLHF)
- TRPO(Schulman et al., 2015):Trust Region Policy Optimization,现代RL算法的理论基石
- DAPO:提出Clip Higher等Entropy控制方法的工作
- Train-Inference Mismatch Blog:李英儒团队2025年9月发布的关于训推不一致问题的深度分析