Tokenizer 编解码不可逆与训练崩溃

引言

本期介绍 veRL 做 RL post-training 时的一个著名 issue：tokenizer 编解码不可逆导致的训练崩溃。

核心问题

Tokenizer 的编解码在很多情况下不可逆：

对一个文本先 encode 再 decode 是确定的。但对 token IDs 先 decode 再 encode，可能得到不同的 token IDs。这是因为多个 token ID 组合可以解码为相同的文本。

在 Multi-turn tool call 场景中：

展示了具体的 token ID 不一致案例，说明问题的普遍性。

Tokenizer 编解码不可逆是 Multi-turn RL Training 的隐患，需要在数据处理中特别注意。

这节课揭示的是一个非常工程化、但足以毁掉训练的细节：如果 tool call 或工具返回结果在 decode/encode 往返中发生变化，训练上下文就会悄悄偏离原始轨迹。对多轮 RL 来说，这种偏差会在每一轮被进一步放大。

最值得建立的检查项

Tokenizer 的细节并不“底层到可以忽略”。在 Multi-turn RL 里，它直接决定了上下文是否稳定可复现。