1ヶ月前

言語モデルはスカラー報酬なしで言語的フィードバックから学習できる

Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

要約

大規模言語モデル（LLM）は、人間またはAIからのフィードバックを用いた強化学習（RL）によってしばしば訓練されるが、こうした手法は通常、複雑なフィードバックをスカラーの報酬に圧縮するため、その豊かさの多くが失われ、スケールの不均衡が生じる。本研究では、言語フィードバックを条件信号として扱う新たなアプローチを提案する。テキストから画像を生成する際の言語事前知識（language priors）に着想を得ており、これにより未見のプロンプトから新たな出力を生成可能となる。この知見を基に、フィードバック条件付きポリシー（Feedback-Conditional Policy, FCP）を導入する。FCPは、応答とフィードバックのペアから直接学習し、オフラインデータ上で最尤推定によりフィードバック条件付き事後分布を近似する。さらに、オンラインでのブートストラップ段階を導入し、ポリシーが肯定的な条件下で出力を生成し、新規のフィードバックを受けて自己改善を行う仕組みを構築した。このアプローチにより、フィードバック駆動型学習を報酬最適化ではなく、条件付き生成として再定式化する。これにより、LLMが言語フィードバックから直接学習する際の表現力が飛躍的に向上する。本研究のコードは、https://github.com/sail-sg/feedback-conditional-policy にて公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

言語モデルはスカラー報酬なしで言語的フィードバックから学習できる

Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

要約

AI で AI を構築

Hyper Newsletters