Command Palette
Search for a command to run...
Xingyue Huang Rishabh Gregor Franke Ziyi Yang Jiamu Bai Weijie Bai Jinhe Bi et al

要約
近年の大規模言語モデル(LLM)の進展により、数学やプログラミングなど、正解が自動的に検証可能な領域において、検証可能な報酬を用いた強化学習(RLVR)によりモデルの推論能力を顕著に向上させることができることが示された。しかし、他の推論が求められる領域への拡張は、高品質かつ検証可能なデータセットの不足および人間による監督の高コストという課題により、依然として困難である。本研究では、多様な推論が求められる領域において、スケーラブルな合成データの生成と検証を可能にするオープンソースフレームワーク「Loong Project」を提案する。本フレームワークは以下の2つの主要な構成要素で構成される。(1)LoongBench:12の分野(例:高度な数学、化学、論理)にまたがる8,729件の人が検証済みのサンプルを含む、選別された初期データセットであり、各サンプルには実行可能なコードと豊富なメタデータが付随している。(2)LoongEnv:複数のプロンプティング戦略をサポートするモジュール式の合成データ生成環境であり、新たな質問・回答・コードの三つ組みを生成することができる。これらの要素は、LLMをエージェントとして用いたエージェント-環境ループを形成し、コード実行により得られた答えと整合するChain-of-Thought(CoT)解答を生成した場合に報酬を与える強化学習を可能にする。実証的に、LoongBenchをオープンソースおよびプロプライエタリな多数のLLMに対して広範なベンチマーク評価を行い、分野カバレッジの評価と性能のボトルネックの特定を実施した。さらに、LoongEnvによって生成された合成データについて、正しさ、難易度、多様性の観点から包括的な分析を行った。