Command Palette

Search for a command to run...

4ヶ月前

強化学習を用いたLLMの推論の再検討:クロスドメインの観点から

強化学習を用いたLLMの推論の再検討:クロスドメインの観点から

要約

強化学習(Reinforcement Learning: RL)は、大規模言語モデル(Large Language Model: LLM)の推論能力を向上させる有望な手法として注目を集めていますが、多くのオープンな取り組みは数学とコードに焦点を当てており、その一般的な推論への広範な適用可能性についての理解が制限されています。主要な課題は、多様な推論領域において信頼性がありスケーラブルなRL報酬信号の不足にあります。本研究では、Guruという92,000件の検証可能な例から構成されるキュレーションされたRL推論コーパスを導入します。このコーパスは、数学、コード、科学、論理、シミュレーション、表形式データの6つの推論領域をカバーしており、各領域固有の報酬設計、重複排除、フィルタリングを通じてRL学習における信頼性と効果性を確保しています。 Guruに基づいて、我々はLLMの推論における既存の知見を系統的に再評価し、領域間で著しい変動が観察されました。例えば、先行研究ではRLが主に事前学習済みモデルから既存の知識を引き出すとする指摘がありますが、我々の結果はより複雑なパターンを示しています:事前学習中に頻繁に遭遇する領域(数学、コード、科学)はクロスドメインでのRL学習から容易に利益を得ることができますが、事前学習での露出が少ない領域(論理、シミュレーション、表形式データ)は有意義な性能向上を達成するためにドメイン内での学習が必要です。これはRLが真のスキル獲得を促進する可能性があることを示唆しています。 最後に、公開データを使用してRL訓練されたオープンモデルの中で最先端の性能を達成した2つのモデルGuru-7BとGuru-32Bを紹介します。これらのモデルは6つの推論領域における17タスク評価スイートで最良のベースラインを超える性能を発揮し、それぞれ7.9%と6.7%上回っています。また我々は、これらのモデルが特に事前学習データに含まれる可能性が低い複雑なタスクにおいてベースモデルのPass@k性能を大幅に改善することも示しました。データセットやモデル、訓練および評価コードは以下のURLで公開されています:this https URL

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
強化学習を用いたLLMの推論の再検討:クロスドメインの観点から | 論文 | HyperAI超神経