HyperAIHyperAI

Command Palette

Search for a command to run...

TraveLER:動画質問応答のためのモジュール型マルチ-LMMエージェントフレームワーク

Chuyi Shang Amos You Sanjay Subramanian Trevor Darrell Roei Herzig

概要

最近、画像ベースの大規模マルチモーダルモデル(LMMs)は、ゼロショットの形で大規模な事前学習を活用することで、フレーム単位のアプローチにより動画質問応答(VideoQA)において顕著な進展を遂げている。しかし、これらのモデルは、関連する情報を検出・抽出し、質問に回答するという一連の処理を同時に実行できる能力が求められる。現行の手法は、すべての処理を一度のパスで行っているが、収集された情報が不十分または誤っている場合に適応することができない。これを克服するため、本研究では、複数の役割を持つエージェントを統合したモジュラーなマルチLMMエージェントフレームワークを提案する。このフレームワークでは、他のエージェントからの共有フィードバックを用いて自身の指示を更新する「プランナー(Planner)エージェント」が各エージェントを指揮する。特に、本研究では「TraveLER」という手法を提案する。この手法は、動画を「探索(Traverse)」するための計画を立て、個々のフレームについて質問を投げて「位置特定(Locate)」し、重要な情報を記録する。その後、「評価(Evaluate)」を行い、質問に回答するのに十分な情報が得られているかを判断する。もし情報が不足している場合、本手法は蓄積された知識に基づいて「再計画(Replan)」が可能である。広範な実験の結果、TraveLERは特定のデータセットに対する微調整なしに、複数のVideoQAベンチマークにおいて性能の向上を実現した。本研究のコードは、https://github.com/traveler-framework/TraveLER にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
TraveLER:動画質問応答のためのモジュール型マルチ-LMMエージェントフレームワーク | 記事 | HyperAI超神経