3 天前
DuPO:通过双偏好优化实现可靠的LLM自我验证
Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang

摘要
我们提出 DuPO,一种基于双重学习的偏好优化框架,通过广义对偶性生成无需标注的反馈。DuPO 解决了两个关键局限性:强化学习结合可验证奖励(RLVR)方法对昂贵标注的依赖性,以及其仅适用于可验证任务的限制;同时克服了传统双重学习仅限于严格对偶任务对(如翻译与反向翻译)的约束。具体而言,DuPO 将原始任务的输入分解为已知与未知两部分,并构建其对偶任务,利用原始任务的输出与已知信息(例如,通过反转数学求解过程以恢复隐藏变量)来重建未知部分,从而将适用范围拓展至非可逆任务。该重建结果的质量被用作自监督奖励信号,用于优化原始任务,与大语言模型(LLM)通过单一模型实例化两个任务的能力相协同。实证结果表明,DuPO 在多种任务上均取得显著提升:在756个翻译方向上,平均提升2.13点COMET得分;在三个挑战性数学推理基准上,平均准确率提升6.4个百分点;作为推理阶段的重排序器使用时,性能提升达9.3点(以增加计算开销换取更高精度)。这些成果表明,DuPO 是一种可扩展、通用且无需标注的大型语言模型优化新范式。