Command Palette

Search for a command to run...

1 个月前

语言模型可以在没有标量奖励的情况下从口头反馈中学习

Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

语言模型可以在没有标量奖励的情况下从口头反馈中学习

摘要

大语言模型(LLMs)通常通过人类或人工智能反馈进行强化学习(RL)训练,但这类方法往往将复杂的反馈信息压缩为标量奖励,导致大量语义细节的丢失,并引发尺度失衡问题。为此,我们提出将语言反馈视为一种条件信号。受文本到图像生成中语言先验的启发——该机制能够根据未见过的提示生成新颖内容——我们引入了反馈条件策略(Feedback-Conditional Policy, FCP)。FCP 直接从响应-反馈配对数据中学习,通过在离线数据上进行最大似然训练,近似反馈条件后验分布。此外,我们进一步设计了一个在线自举(bootstrapping)阶段,使策略在正向条件下生成输出,并接收新的反馈以持续优化自身。这一方法将反馈驱动的学习重新定义为条件生成任务,而非传统的奖励优化,为大语言模型提供了一种更富表现力的方式,使其能够直接从语言反馈中学习。相关代码已开源,地址为:https://github.com/sail-sg/feedback-conditional-policy。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供