HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-MR: 大規模言語および視覚アシスタントによるビデオモーメント検索

Weiheng Lu Jian Li* An Yu Ming-Ching Chang Shengpeng Ji Min Xia

概要

多モーダル大規模言語モデル(Multimodal Large Language Models: MLLMs)は、視覚認識、理解、推論に広く利用されています。しかし、長時間のビデオ処理や正確な瞬間検索は、MLLMsのコンテクストサイズの制限と粗いフレーム抽出により依然として困難です。本研究では、これらの課題を解決するために、大規模言語・ビジョンアシスタント(Large Language-and-Vision Assistant for Moment Retrieval: LLaVA-MR)を提案します。LLaVA-MRは、空間・時間的な特徴抽出のために密集フレームおよび時間エンコーディング(Dense Frame and Time Encoding: DFTE)、短い視覚および動作パターンの捕捉のために情報量豊富なフレーム選択(Informative Frame Selection: IFS)、そして大規模言語モデル(LLM)のコンテクスト制約を管理するための動的トークン圧縮(Dynamic Token Compression: DTC)を組み合わせています。Charades-STAやQVHighlightsなどのベンチマークでの評価結果によると、LLaVA-MRは11種類の最先端手法を上回り、QVHighlightsデータセットにおいて[email protected]で1.82%、[email protected]で1.29%の改善を達成しています。当該実装は受理され次第オープンソース化される予定です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています