Command Palette
Search for a command to run...

要約
可検証報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させる点で成功を収めてきたが、ツール統合を伴わない単一ターンの対話に限定されている。近年、ツール利用を伴うエージェント型強化学習(ARLT)のアプローチが登場し、複数ターンのツール対話に対応しようとしている。しかし、既存の手法はタスク固有のコードベースを構築しており、その結果、システムの断片化や同期実行のボトルネック、および領域間での拡張性の限界といった問題を抱えている。これらは、コミュニティ全体における採用の促進とアルゴリズムの革新を阻害している。本研究では、体系的な設計原則に基づき、こうした課題を解決する統合的でモジュール型のフレームワーク「VerlTool」を提案する。VerlToolは以下の4つの主な貢献を提供する:(1)VeRLとの上流整合性を確保することで、互換性の維持と保守の簡素化を実現、(2)標準化されたAPIによる統一されたツール管理により、コード実行、検索、SQLデータベース操作、視覚処理など多様なモダリティをサポート、(3)非同期のロールアウト実行により、同期ボトルネックを排除し、ほぼ2倍の高速化を達成、(4)6つのARLT領域における包括的な評価を通じて、競争力のある性能を示す。本フレームワークは、テキスト/画像/動画を含む多モーダルな観測トークンを持つ複数ターンの遷移としてARLTを形式化し、単一ターンのRLVRの枠組みを拡張している。数学的推論、知識QA、SQL生成、視覚的推論、Web検索、ソフトウェアエンジニアリングの各タスクにおいて、専用システムと同等の成果を達成しつつ、統一された学習インフラを提供している。モジュール型プラグインアーキテクチャにより、軽量なPython定義のみでツールの迅速な統合が可能となり、開発負荷を大幅に低減し、ツール拡張型強化学習研究のスケーラブルな基盤を提供する。本研究のコードは、https://github.com/TIGER-AI-Lab/verl-tool にてオープンソースとして公開されている。