8ヶ月前

監視付き微調整

インテリジェントな質問応答

アプローチ／フレームワーク

自然言語処理

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

概要

大規模言語モデル（LLMs）は推論能力に優れていますが、学習後の調整はタスク目標との適合を確保するために依然として重要です。既存の強化学習（RL）手法はしばしば高コストの人間によるアノテーションや外部報酬モデルに依存しています。本研究では、自己確信を用いた強化学習（Reinforcement Learning via Self-Confidence: RLSC）を提案します。この手法はモデル自身の確信度を報酬信号として利用することで、ラベル、好みモデル、または報酬設計の必要性を排除します。Qwen2.5-Math-7Bに対して各問題につき16サンプルと10または20の学習ステップのみで適用した結果、RLSCはAIME2024で+13.4%、MATH500で+21.2%、Minerva Mathで+21.7%、Olympiadbenchで+20.8%、AMC23で+9.7%の精度向上を達成しました。RLSCは推論モデル向けの単純かつスケーラブルな学習後調整手法を提供し、少量のサンプルと未ラベル監督のみを必要とします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

監視付き微調整

インテリジェントな質問応答

アプローチ／フレームワーク

自然言語処理

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

概要

大規模言語モデル（LLMs）は推論能力に優れていますが、学習後の調整はタスク目標との適合を確保するために依然として重要です。既存の強化学習（RL）手法はしばしば高コストの人間によるアノテーションや外部報酬モデルに依存しています。本研究では、自己確信を用いた強化学習（Reinforcement Learning via Self-Confidence: RLSC）を提案します。この手法はモデル自身の確信度を報酬信号として利用することで、ラベル、好みモデル、または報酬設計の必要性を排除します。Qwen2.5-Math-7Bに対して各問題につき16サンプルと10または20の学習ステップのみで適用した結果、RLSCはAIME2024で+13.4%、MATH500で+21.2%、Minerva Mathで+21.7%、Olympiadbenchで+20.8%、AMC23で+9.7%の精度向上を達成しました。RLSCは推論モデル向けの単純かつスケーラブルな学習後調整手法を提供し、少量のサンプルと未ラベル監督のみを必要とします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています