2ヶ月前

LLaVA-MR: 大規模言語および視覚アシスタントによるビデオモーメント検索

Lu, Weiheng ; Li, Jian ; Yu, An ; Chang, Ming-Ching ; Ji, Shengpeng ; Xia, Min
LLaVA-MR: 大規模言語および視覚アシスタントによるビデオモーメント検索
要約

多モーダル大規模言語モデル(Multimodal Large Language Models: MLLMs)は、視覚認識、理解、推論に広く利用されています。しかし、長時間のビデオ処理や正確な瞬間検索は、MLLMsのコンテクストサイズの制限と粗いフレーム抽出により依然として困難です。本研究では、これらの課題を解決するために、大規模言語・ビジョンアシスタント(Large Language-and-Vision Assistant for Moment Retrieval: LLaVA-MR)を提案します。LLaVA-MRは、空間・時間的な特徴抽出のために密集フレームおよび時間エンコーディング(Dense Frame and Time Encoding: DFTE)、短い視覚および動作パターンの捕捉のために情報量豊富なフレーム選択(Informative Frame Selection: IFS)、そして大規模言語モデル(LLM)のコンテクスト制約を管理するための動的トークン圧縮(Dynamic Token Compression: DTC)を組み合わせています。Charades-STAやQVHighlightsなどのベンチマークでの評価結果によると、LLaVA-MRは11種類の最先端手法を上回り、QVHighlightsデータセットにおいて[email protected]で1.82%、[email protected]で1.29%の改善を達成しています。当該実装は受理され次第オープンソース化される予定です。

LLaVA-MR: 大規模言語および視覚アシスタントによるビデオモーメント検索 | 最新論文 | HyperAI超神経