RL 是否激发了 Base Model 不具备的能力？

引言

本期讨论一个有争议的问题：RL/RLHF 是否真正激发了 Base Model 不具备的新能力？通过实验设计和分析来探讨。

批判性阅读

这篇文章争议较大，但我们可以从中学习：实验设计的严谨性、Metrics 定义的合理性、以及如何通过扎实的实验分析得出结论。

RL training 后模型表现出的推理能力，是：

文章通过对比 Base Model 和 RL-trained Model 在特定 task 上的表现，分析能力的来源。关键在于如何定义和度量 ``新能力。

无论结论如何，这篇工作的实验设计方法论值得学习。

这类 20 分钟短课最大的价值，往往不是多讲了一个公式，而是把一个实验现象钉住。真正复看时，应该问三个问题：实验在验证什么假设、用了什么代理指标、如果结论不成立会怎样。这样才能避免把一次性的实验结果误读为普适规律。

读实验结果的三个抓手

实验分析的重点不只是“结果是什么”，而是“这个结果支持了哪一个训练判断”。这是后续做 Agentic RL ablation 时最需要保留的习惯。