Command Palette
Search for a command to run...
Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

要約
大規模言語モデル(LLM)は、人間またはAIからのフィードバックを用いた強化学習(RL)によってしばしば訓練されるが、こうした手法は通常、複雑なフィードバックをスカラーの報酬に圧縮するため、その豊かさの多くが失われ、スケールの不均衡が生じる。本研究では、言語フィードバックを条件信号として扱う新たなアプローチを提案する。テキストから画像を生成する際の言語事前知識(language priors)に着想を得ており、これにより未見のプロンプトから新たな出力を生成可能となる。この知見を基に、フィードバック条件付きポリシー(Feedback-Conditional Policy, FCP)を導入する。FCPは、応答とフィードバックのペアから直接学習し、オフラインデータ上で最尤推定によりフィードバック条件付き事後分布を近似する。さらに、オンラインでのブートストラップ段階を導入し、ポリシーが肯定的な条件下で出力を生成し、新規のフィードバックを受けて自己改善を行う仕組みを構築した。このアプローチにより、フィードバック駆動型学習を報酬最適化ではなく、条件付き生成として再定式化する。これにより、LLMが言語フィードバックから直接学習する際の表現力が飛躍的に向上する。本研究のコードは、https://github.com/sail-sg/feedback-conditional-policy にて公開されている。