概要

タイトル：（タイトルなし）抄録：メモリは、大規模ビジョン・言語モデル（LVLMs）が長時間かつマルチモーダルな対話を処理する上で不可欠であり、この機能を備える手法の方向性として、ロングコンテキストLVLMsとメモリ拡張エージェントの2つが挙げられる。しかし、マルチモーダルな証拠を真に必要とする質問について、これら2つを体系的に比較する既存のベンチマークは存在しない。このギャップを埋めるため、私たちはマルチモーダルな複数セッションの会話におけるメモリを評価するための包括的なベンチマークであるMEMLENSを導入する。MEMLENSは、クロスモーダルなトークンカウント方式の下、4つの標準的なコンテキスト長（32K〜256K tokens）において、情報抽出、複数セッション推論、時間的推論、知識更新、回答拒否という5つのメモリ能力にわたる789問の質問で構成されている。画像アブレーション研究により、MEMLENSを解決するには視覚的証拠が必要であることが確認された：証拠画像を除去すると、証拠に画像を含む質問の80.4%において、2つの最先端LVLMsの精度が2%未満に低下した。27のLVLMsと7つのメモリ拡張エージェントを評価した結果、ロングコンテキストLVLMsは直接的な視覚的グラウンディングを通じて高いショートコンテキスト精度を達成するものの、対話が増加するにつれて性能が低下するのに対し、メモリエージェントは長さに対して安定しているものの、保存時の圧縮により視覚的忠実度を失うことがわかった。複数セッション推論では、ほとんどのシステムが30%未満にとどまり、いずれのアプローチ単独でもタスクを解決できないことが示された。これらの結果は、ロングコンテキストアテンションと構造化されたマルチモーダル検索を組み合わせるハイブリッドアーキテクチャの動機づけとなる。私たちのコードは https://github.com/xrenaf/MEMLENS で公開されている。

ソースPDF コードを表示