8ヶ月前

概要

多モーダル大規模言語モデル（Multimodal Large Language Models: MLLMs）は、視覚認識、理解、推論に広く利用されています。しかし、長時間のビデオ処理や正確な瞬間検索は、MLLMsのコンテクストサイズの制限と粗いフレーム抽出により依然として困難です。本研究では、これらの課題を解決するために、大規模言語・ビジョンアシスタント（Large Language-and-Vision Assistant for Moment Retrieval: LLaVA-MR）を提案します。LLaVA-MRは、空間・時間的な特徴抽出のために密集フレームおよび時間エンコーディング（Dense Frame and Time Encoding: DFTE）、短い視覚および動作パターンの捕捉のために情報量豊富なフレーム選択（Informative Frame Selection: IFS）、そして大規模言語モデル（LLM）のコンテクスト制約を管理するための動的トークン圧縮（Dynamic Token Compression: DTC）を組み合わせています。Charades-STAやQVHighlightsなどのベンチマークでの評価結果によると、LLaVA-MRは11種類の最先端手法を上回り、QVHighlightsデータセットにおいて[email protected]で1.82%、[email protected]で1.29%の改善を達成しています。当該実装は受理され次第オープンソース化される予定です。

ソースPDF