Command Palette
Search for a command to run...
Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

摘要
大语言模型(LLMs)通常通过人类或人工智能反馈进行强化学习(RL)训练,但这类方法往往将复杂的反馈信息压缩为标量奖励,导致大量语义细节的丢失,并引发尺度失衡问题。为此,我们提出将语言反馈视为一种条件信号。受文本到图像生成中语言先验的启发——该机制能够根据未见过的提示生成新颖内容——我们引入了反馈条件策略(Feedback-Conditional Policy, FCP)。FCP 直接从响应-反馈配对数据中学习,通过在离线数据上进行最大似然训练,近似反馈条件后验分布。此外,我们进一步设计了一个在线自举(bootstrapping)阶段,使策略在正向条件下生成输出,并接收新的反馈以持续优化自身。这一方法将反馈驱动的学习重新定义为条件生成任务,而非传统的奖励优化,为大语言模型提供了一种更富表现力的方式,使其能够直接从语言反馈中学习。相关代码已开源,地址为:https://github.com/sail-sg/feedback-conditional-policy。