2ヶ月前
MA-LMM: メモリ強化型大規模マルチモーダルモデルによる長期ビデオ理解
Bo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim

要約
大規模言語モデル(LLM)の成功に伴い、視覚モデルをLLMに統合してビジョン・ランゲージ基礎モデルを構築することへの関心が最近高まっています。しかし、既存の大規模マルチモーダルモデル(例:Video-LLaMA, VideoChat)は、短い動画理解のために限られた数のフレームしか処理できません。本研究では、主に長期的な動画理解に効率的かつ効果的なモデルを設計することに焦点を当てています。既存の手法とは異なり、より多くのフレームを同時に処理しようとするのではなく、オンラインで動画を処理し、過去の動画情報をメモリバンクに保存する方法を提案します。これにより、当モデルはコンテキスト長制約やGPUメモリ制限を超えることなく、歴史的な動画コンテンツを参照して長期的な分析を行うことができます。当メモリバンクは、既存の大規模マルチモーダルLLMにオフザシェルフでシームレスに統合できます。我々は長期動画理解、動画質問応答、動画キャプショニングなどの様々な動画理解タスクにおいて広範な実験を行い、当モデルは複数のデータセットで最先端の性能を達成しています。コードは https://boheumd.github.io/MA-LMM/ で公開されています。