Command Palette

Search for a command to run...

1ヶ月前

言語モデルはスカラー報酬なしで言語的フィードバックから学習できる

Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

言語モデルはスカラー報酬なしで言語的フィードバックから学習できる

要約

大規模言語モデル(LLM)は、人間またはAIからのフィードバックを用いた強化学習(RL)によってしばしば訓練されるが、こうした手法は通常、複雑なフィードバックをスカラーの報酬に圧縮するため、その豊かさの多くが失われ、スケールの不均衡が生じる。本研究では、言語フィードバックを条件信号として扱う新たなアプローチを提案する。テキストから画像を生成する際の言語事前知識(language priors)に着想を得ており、これにより未見のプロンプトから新たな出力を生成可能となる。この知見を基に、フィードバック条件付きポリシー(Feedback-Conditional Policy, FCP)を導入する。FCPは、応答とフィードバックのペアから直接学習し、オフラインデータ上で最尤推定によりフィードバック条件付き事後分布を近似する。さらに、オンラインでのブートストラップ段階を導入し、ポリシーが肯定的な条件下で出力を生成し、新規のフィードバックを受けて自己改善を行う仕組みを構築した。このアプローチにより、フィードバック駆動型学習を報酬最適化ではなく、条件付き生成として再定式化する。これにより、LLMが言語フィードバックから直接学習する際の表現力が飛躍的に向上する。本研究のコードは、https://github.com/sail-sg/feedback-conditional-policy にて公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
言語モデルはスカラー報酬なしで言語的フィードバックから学習できる | 論文 | HyperAI超神経