6ヶ月前

概要

最近、画像ベースの大規模マルチモーダルモデル（LMMs）は、ゼロショットの形で大規模な事前学習を活用することで、フレーム単位のアプローチにより動画質問応答（VideoQA）において顕著な進展を遂げている。しかし、これらのモデルは、関連する情報を検出・抽出し、質問に回答するという一連の処理を同時に実行できる能力が求められる。現行の手法は、すべての処理を一度のパスで行っているが、収集された情報が不十分または誤っている場合に適応することができない。これを克服するため、本研究では、複数の役割を持つエージェントを統合したモジュラーなマルチLMMエージェントフレームワークを提案する。このフレームワークでは、他のエージェントからの共有フィードバックを用いて自身の指示を更新する「プランナー（Planner）エージェント」が各エージェントを指揮する。特に、本研究では「TraveLER」という手法を提案する。この手法は、動画を「探索（Traverse）」するための計画を立て、個々のフレームについて質問を投げて「位置特定（Locate）」し、重要な情報を記録する。その後、「評価（Evaluate）」を行い、質問に回答するのに十分な情報が得られているかを判断する。もし情報が不足している場合、本手法は蓄積された知識に基づいて「再計画（Replan）」が可能である。広範な実験の結果、TraveLERは特定のデータセットに対する微調整なしに、複数のVideoQAベンチマークにおいて性能の向上を実現した。本研究のコードは、https://github.com/traveler-framework/TraveLER にて公開されている。

ソースPDF