大模型偏好对齐-simPO

发表于 2024-05-31 更新于 2024-06-02 分类于 CS ， NLP ， LLM 本文字数： 5.2k 阅读时长 ≈ 9 分钟

【本文已在同名微信公众号 / 知乎 / 个人博客linsight.cn 上线】

前面我们对DPO和ODPO的思路做了整理：大模型偏好对齐-DPO，大模型偏好对齐-ODPO。

最近新出的simPO受到了很多关注。相比DPO，simPO不需要reference model，并且有更好的效果。simPO的另一个好处是，能够保持生成结果在较短长度下的质量。

DPO的局限

回顾一下DPO。DPO的reward function有一个closed-form expression

\[\begin{aligned}r(x,y)=\beta\log\frac{\pi_\theta(y\mid x)}{\pi_\text{ref}(y\mid x)}+\beta\log Z(x)\end{aligned}\]

基于此，通过Bradley-Terry model进行建模，得到损失函数

\[\mathcal{L}_{\text{DPO}}(\pi_\theta;\pi_{\text{ref}})=-\mathbb{E}_{(x,y_w,y_l)\thicksim\mathcal{D}}\left[\log\sigma\left(\beta\log\frac{\pi_\theta(y_w\mid x)}{\pi_{\text{ref}}(y_w\mid x)}-\beta\log\frac{\pi_\theta(y_l\mid x)}{\pi_{\text{ref}}(y_l\mid x)}\right)\right]\]

理论上，DPO的优化目标和RLHF是一致的，但是DPO有两个缺陷：
- 仍然需要一个reference model，这样依然有比较大的内存和计算开销
- 训练过程中优化的reward和推理时的生成指标存在差异，也就是训练和推理的目标不完全对齐

第二点怎么理解呢？模型在自回归生成response时，理论上是寻找最大化所有token平均log likelihood的组合，即

\[\begin{aligned}p_\theta(y\mid x)=\frac{1}{|y|}\log\pi_\theta(y\mid x)=\frac{1}{|y|}\sum_{i=1}^{|y|}\log\pi_\theta(y_i\mid x,y_{<i})\end{aligned}\]

当然实际上这个组合空间太大了，没法直接遍历寻找，因此会使用一些解码策略来寻找局部最优解，比如greedy decoding、beam search或者top-k sampling等，不过我们还是可以按这个公式近似计算。另外这个公式还是可用在多个response/多选题的排序上的。

可以看到推理时的这个目标和DPO的reward差了个referenc model。那么在DPO里，满足 \(r(x,y_w)>r(x,y_l)\) 的偏好数据并不一定意味着 \(p_\theta(y_w\mid x)>p_\theta(y_l\mid x)\)。

论文做了一个统计，对于DPO，满足 \(r(x,y_w)>r(x,y_l)\) 和 \(p_\theta(y_w\mid x)>p_\theta(y_l\mid x)\) 两个结果对齐的比例大概只有50%，如下图所示

这就是训练和推理目标没有完全对齐。

而simPO则可以完全对齐

simPO

损失函数

从上面这个分析，我们自然就想到要把训练的目标往推理目标上靠拢对齐。那么最直接的做法，就是把reward从

\[\begin{aligned}r^*(x,y)=\beta\log\frac{\pi_\theta(y\mid x)}{\pi_\text{ref}(y\mid x)}\end{aligned}\]

（这里省略了配分函数Z）

变成

\[\begin{aligned}r_{\text{SimPO}}(x,y)=\frac{\beta}{|y|}\log\pi_\theta(y\mid x)=\frac{\beta}{|y|}\sum_{i=1}^{|y|}\log\pi_\theta(y_i\mid x,y_{<i})\end{aligned}\]

注意这里有个长度归一化项，这个很重要，没有这一项的话，模型会倾向于生成长度更长但是低质量的内容。

除了修改reward的计算，simPO和IPO、ODPO一样，引入了一个reward margin，这是一个固定的超参，要求winning response和losing response的reward差值要大于reward margin

\[p(y_w\succ y_l\mid x)=\sigma\left(r(x,y_w)-r(x,y_l)-\gamma\right)\]

按已有的经验，增大这个margin有助于提高模型泛化能力，但是太大的margin也会导致模型的退化。

至此我们得到了simPO的损失函数

\[\mathcal{L}_{\text{SimPO}}(\pi_\theta)=-\mathbb{E}_{(x,y_w,y_l)\thicksim\mathcal{D}}\left[\log\sigma\left(\frac{\beta}{|y_w|}\log\pi_\theta(y_w|x)-\frac{\beta}{|y_l|}\log\pi_\theta(y_l|x)-\gamma\right)\right]\]

simPO梯度更新的直观理解

DPO和simPO的梯度如下

DPO和simPO的梯度有两个主要区别：
- 梯度权重：simPO的梯度权重没有包含reference model，这样当policy model给dispreferred response更高的reward的时候，权重就会变大，加强对这个错误case的修正力度。
- simPO的梯度更新带有length-normalized；而如《Disentangling length from quality in direct preference optimization》所发现，DPO里更长的token会有更大的梯度值从而主导了梯度更新的过程，这导致训练出来的模型倾向于生成更长的模型。

实验

设置

论文使用了Llama3-8B和Mistral-7B的base和instruct模型进行实验。

对于base模型，就先在UltraChat-200k数据集上训练一个对应的SFT模型，之后在 UltraFeedback数据集上进行preference optimization。

对于instruct模型，参照《Iterative DPO alignment》的做法，先用这些SFT模型生成preference数据集。具体来说，使用UltraFeedback的prompt，用temperature=0.8的配置，从SFT模型生成5个response，并用PairRM（《LLM-Blender: Ensembling large language models with pairwise ranking and generative fusion》）对这5个response进行打分，选择最高分作为preferred response，最低分的座位dispreferred response。

这样就得到了四组实验组合：Llama3-Base, Llama3-Instruct, Mistral-Base和Mistral-Instruct。

此外，论文发现超参对preference optimization的影响很大，因此对不同的方法进行了超参搜索，范围如下

此外对batch size、解码温度等参数也进行搜索。

所用的数据集如下

对比

在各个数据集上，不同的优化方法结果对比如下

其中LC表示length-controlled，即在限制长度条件下的win rate。

有几个发现：
- 在MT-Bench上，各个方法的差异不大，那些微小的波动可能更多来自于随机性。究其原因可能是因为这个数据集的量比较少，且评价的方案也比较单一，这个发现和《From live data to high-quality benchmarks: The Arena-Hard pipeline》的发现是一致的。
- instruct模型的表现比base要好，这可能是因为这些精心微调过甚至强化学习过的模型本身质量更高。
- 在AlpacaEval 2和Arena-Hard上，simPO在raw win rate和length-controlled win rate相比其他方案都有明显优势。