18 days ago

语义感知奖励在自由形式生成中的开放式R1训练

Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber

摘要

评估开放型长篇生成具有挑战性，因为很难明确定义好输出与坏输出之间的区别。现有的方法往往忽略了连贯性、风格或相关性等关键方面，或者受到预训练数据的偏见影响，使得开放型长篇生成的评估成为一个尚未充分研究的问题。为了解决这一差距，我们提出了PrefBERT，这是一种用于评估开放型长篇生成并指导其训练的评分模型，在GRPO（Good Response Policy Optimization）中通过为好输出和坏输出提供不同的奖励来引导训练。PrefBERT在两个包含多样长篇风格和李克特量表评分质量的响应评估数据集上进行训练，能够比传统的ROUGE-L和BERTScore指标提供更好的语义奖励反馈。通过包括LLM-as-a-judge（大型语言模型作为评判者）、人类评分和定性分析在内的全面评估，我们展示了经过多句和段落长度响应训练的PrefBERT在各种长篇文章中仍然可靠，并且与GRPO所需的可验证奖励高度一致。人类评价证实，使用PrefBERT作为奖励信号训练策略模型所得到的响应比使用传统指标训练的模型更符合人类偏好。我们的代码可在https://github.com/zli12321/long_form_rl 获取。