17 天前
使用人类反馈训练语言模型以遵循指令
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe

摘要
单纯增大语言模型的规模,并不能使其更好地遵循用户的意图。例如,大型语言模型可能生成不真实、具有攻击性或对用户无益的内容,也就是说,这些模型与用户的需求并未对齐。本文提出了一种通过人类反馈进行微调的方法,以在多种任务上实现语言模型与用户意图的有效对齐。我们首先收集由标注者编写以及通过 OpenAI API 提交的提示(prompts),并基于这些提示构建了一个标注者示范数据集,用以展示期望的模型行为。随后,我们利用监督学习对 GPT-3 模型进行微调。接着,我们进一步收集了对模型输出结果的排序数据集,并基于此采用人类反馈的强化学习方法对已有的监督模型进行二次微调。由此产生的模型被称为 InstructGPT。在我们所定义的提示分布上的人类评估中,尽管 InstructGPT 模型参数量仅为 13 亿(1.3B),仅为 GPT-3(1750 亿参数)的 1/100,其输出仍被人类用户更偏好。此外,InstructGPT 模型在提升回答的真实性方面表现显著,同时大幅减少了有毒内容的生成,且在公开的自然语言处理(NLP)数据集上的性能退化极小。尽管 InstructGPT 仍会犯一些简单错误,但我们的实验结果表明,基于人类反馈进行微调是一种极具前景的路径,能够有效实现语言模型与人类意图的对齐。