17日前
VideoAgent:エージェントとしての大規模言語モデルを用いた長編動画理解
Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy

要約
長時間動画理解はコンピュータビジョン分野における重要な課題であり、長時間にわたるマルチモーダルなシーケンスに対して推論を行うことができるモデルの開発が求められている。人間の認知プロセスに着想を得て、本研究では、長大な視覚入力を処理する能力よりも、インタラクティブな推論と計画性を重視する。そこで、大規模言語モデル(LLM)を中枢エージェントとして用い、質問に答えるために反復的に重要な情報を特定・統合する新しいエージェントベースのシステム「VideoAgent」を提案する。視覚言語基盤モデルは、視覚情報の翻訳および検索を支援するツールとして機能する。EgoSchemaおよびNExT-QAという困難なベンチマーク上で評価した結果、VideoAgentはゼロショット設定下でそれぞれ54.1%および71.3%の正確率を達成し、平均してそれぞれ8.4フレームおよび8.2フレームの入力画像を使用した。これらの結果は、現在の最先端手法と比較して、本手法の優れた効果と効率性を示しており、エージェントベースのアプローチが長時間動画理解の進展に大きな可能性を秘めていることを示している。