3 个月前

基于人类反馈的强化学习训练有益且无害的助手

Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, et al
基于人类反馈的强化学习训练有益且无害的助手
摘要

我们采用偏好建模与基于人类反馈的强化学习(RLHF)方法,对语言模型进行微调,使其能够作为有益且无害的助手。研究发现,这种对齐训练显著提升了模型在几乎所有自然语言处理评估任务中的表现,并且与训练特定技能(如Python编程和摘要生成)完全兼容。我们探索了一种迭代式在线训练模式,即每周利用新的人类反馈数据更新偏好模型和强化学习策略,从而高效地优化我们的数据集与模型。最后,我们研究了RLHF训练的鲁棒性,发现策略与其初始状态之间的KL散度的平方根与强化学习奖励之间存在近似线性关系。除主要结果外,我们还开展了多项辅助分析,包括校准性评估、多目标权衡、以及使用分布外检测(OOD detection)的方法;同时,我们将我们的模型与人类写作者进行了对比,并展示了基于近期相关研究中出现的提示词生成的模型输出样例。