HyperAIHyperAI

Command Palette

Search for a command to run...

ParaVT: エージェント型動画強化学習における並列ツール使用のためのツール事前知識のパラドックスを制御する

Zuhao Yang Kaichen Zhang Sudong Wang Keming Wu Zhongyu Yang Bo Li Xiaojuan Qi Shijian Lu Xingxuan Li Lidong Bing

概要

タイトル:(タイトルなし)抄録:強化学習(RL)を用いて大規模マルチモーダルモデル(LMMs)をトレーニングし、ビデオ処理ツール(例:クロッピング)をネイティブに呼び出すことは、長尺ビデオ理解への有望なアプローチとなっている。しかし、既存のネイティブRL手法はツール呼び出しを逐次的に(つまり、1ターンごとに1回)実行するため、1回の誤ったクロッピングがエラーを連鎖させ、ピアによる修正が行われず、マルチターンのツール呼び出しがコンテキストを劣化させ、推論コストがターン数に比例して線形に増加するという課題がある。本研究では、ParaVTを提案する。これは、並列ビデオツール呼び出しのために設計された、初のマルチエージェント・エンドツーエンドRLトレーニングフレームワークであり、単一のターン内で複数の時間窓クロッピングをディスパッチすることで、クリーンなコンテキストとより高い耐障害性を実現する。しかし、標準的なRLをParaVTに適用すると、Tool Prior Paradox(ツール事前知識のパラドックス)と呼ばれる障害が明らかになった。ツール探索を可能にする事前学習済みツール事前知識は、冷間開始された構造化フォーマットを不安定にし、温度サンプリング下でツールスキップ報酬のショートカットを露呈させる。より弱い事前知識を持つLMMを用いたモデル間比較により、この主張が支持された。フォーマットは安定しているが、RLはゼロのツール呼び出しを引き起こしており、事前知識の強度がフォーマット崩壊とツール探索の両方の共通の駆動要因であることが示唆される。本研究では、PARA-GRPO(Parseability-Anchored and Ratio-gAted GRPO)を提案する。これは、標準的なRLに2つの補完的なメカニズムを追加したものである。(i) 崩壊を起こしやすい構造化トークン位置にのみ適用されるターゲットフォーマット報酬、および (ii) ツール呼び出しがスキップすることに対して測定可能な報酬信号をもたらすトレーニングプロンプトを生成するための、プロンプトごとのフレーム予算ランダム化。6つの長尺ビデオ理解ベンチマークにおいて、ParaVTはQwen3-VLベースラインと比較して平均で+7.9%の改善を示し、PARA-GRPOはトレーニング時のフォーマット準拠率を0.13から0.64に引き上げた。ツール機能が現代のLMMsにますます内面化されるにつれて、RLは結果として生じる事前知識と協調する必要があり、ParaVTはエージェント型RLのための一般的なレシピを提供する。コード、データ、モデル重みは公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています