DeepSeek Math V2：自我验证与推理训练

引言

本期介绍 DeepSeek Math V2，探讨如何将 verification（自我验证）能力训练到模型内部。

核心贡献

DeepSeek Math V2 训练模型在数学推理中具备自我验证能力：模型生成解答后，能自主验证答案的正确性，并在发现错误时回溯修正。本质上是在做 General Reward Model。

之前介绍过纯推理模式下的 verification workflow（无模型训练）。DeepSeek Math V2 的突破在于将这种能力内化到模型中。

将 verification 能力训练到模型内部，是从 外部验证到内在能力的跨越。

Verification 的优势在于 reward 更明确，但它并不自动解决所有训练难题。即便答案能验证，模型仍然可能因为探索不足、样本效率低或者中间步骤质量差而学得很慢。因此，可验证奖励更像是把问题从“奖励是否可信”转移到了“搜索与优化是否足够高效”。

可验证任务的真正价值

它们为 RL 提供了一个更干净的试验场：研究者可以把主要精力放在采样、探索、credit assignment 和训练稳定性上，而不是先和模糊的人类偏好做长期拉扯。

Verification 提高了奖励信号的可信度，但训练成败仍取决于算法是否能把这份“更干净的监督”真正转化成更好的策略。