HyperAI超神経

補強の微調整

強化微調整 (RFT) は、教師あり微調整 (SFT) と強化学習 (RL) を組み合わせた手法で、複数の推論パスを導入して学習することを目的としており、これらのパスが正解とどの程度一致するかを自動的に評価し、モデルを最適化します。質の高い回答を生み出す能力。

RFT は 2024 年に ByteDance によって初めて提案され、関連論文「ReFT: RE強化された微調整による推論「ACL 2024で発表。このテクノロジーは 2 つの段階を通じてモデルのパフォーマンスを向上させます。1 つ目は SFT を使用してモデルをウォームアップし、数学的問題に対して基本的に正しい応答を生成するためのモデルの基礎を提供します。2 つ目は強化学習 (RL) です。 ) ステージでは、オンライン強化学習 (特に PPO アルゴリズム) を最適化に使用します。これは、多数の推論パスを自動的にサンプリングし、実際の回答に基づいて報酬を取得して、モデルをさらに微調整します。

RFT は、複数のデータ セット、特に CodeLLAMA モデルで SFT よりも優れたパフォーマンスを示します。GSM8K データ セットの RFT の精度は、SFT の精度よりも 10 パーセント近く高くなります。このテクノロジーにより、モデルは答えを学習するだけでなく、タスクの要件に応じて思考経路を最適化し、モデルの「フィードバック ループ」を構築し、モデルのスコアリング ガイダンスを通じて特定のシナリオのニーズに適応するソリューションをトレーニングすることができます。ドメイン固有のスコアラーによる出力。