On-Policy Distillation:让学生自己犯错、自己改正
1. 传统蒸馏的问题:一直在模仿别人的"范文"
在大模型落地过程中,蒸馏是把大模型能力迁移到小模型的常用手段。传统的 logits 蒸馏思路很直接:让教师模型生成一批数据,学生模型学习这些数据的 token 分布。这在学术上叫 Off-policy Distillation——因为训练数据来自教师策略 \(\pi_T\),而学生真正推理时面对的是自己的策略 \(\pi_S\)。
这个范式在短文本分类、简单问答上效果不错,但一旦进入长链推理(数学证明、代码生成、多轮工具调用),问题就来了:自回归误差积累。