
要約
我々は、長時間動画プラットフォームにおける動画検索の進展を目的として、「マルチモーダル未編集動画検索(Multi-modal Untrimmed Video Retrieval, MUVR)」という新タスクと、それに基づく新しいベンチマークを提案する。MUVRは、複数モーダルなクエリ(テキスト、タグ、マスクなど)を用いて、関連するセグメントを含む未編集動画を検索することを目的としている。本研究の主な特徴は以下の通りである。1) 実用的な検索パラダイム:MUVRは、動画中心のマルチモーダルクエリをサポートし、長文の記述、動画タグのプロンプト、マスクプロンプトを用いて細粒度な検索要件を表現可能である。また、1対多の検索パラダイムを採用しており、未編集動画に特化した設計となっており、長時間動画プラットフォームの実用的応用に適している。2) 複数レベルの視覚的対応関係:一般的な動画ジャンル(ニュース、旅行、ダンスなど)をカバーし、検索のマッチング基準を明確に定義するため、ユーザーが関心を持つ核心的な動画コンテンツ(例:ニュースイベント、旅行先、ダンスの動き)に基づき、複数レベルの視覚的対応関係を構築した。この対応関係は、コピー、イベント、シーン、インスタンス、行動、その他、の6つのレベルで構成される。3) 綿密な評価基準:MUVRは3種類のバージョン(Base、Filter、QA)を提供する。MUVR-BaseおよびMUVR-Filterは検索モデルの性能を評価するためのものであり、MUVR-QAはマルチモーダル大規模言語モデル(MLLMs)の質問応答能力を評価する形式を採用している。さらに、MLLMsの再ランク付け能力を評価するための「再ランクスコア(Reranking Score)」を提案した。MUVRデータセットは、動画プラットフォーム「Bilibili」から収集した53,000本の未編集動画、1,050件のマルチモーダルクエリ、および84,000件のマッチング結果を含む。本研究では、最先端の3種類の動画検索モデル、6種類の画像ベースのVLM(視覚言語モデル)、および10種類のMLLMを対象に広範な評価を実施した。評価結果から、従来の検索手法が未編集動画およびマルチモーダルクエリの処理において限界を示すことが明らかになった一方で、MLLMsも複数動画の理解能力および再ランク付け能力において課題を抱えていることが明らかとなった。