概要

マルチモーダル大規模言語モデル（MLLMs）は、視覚理解、推論および対話において顕著な成果を上げている。しかし、デコード過程における出力トークンの生成に伴い、推論計算量とメモリ使用量が継続的に増加するため、MLLMsの効率性が直接的に損なわれる問題がある。既存の手法は、視覚的コンテキストの冗長性を低減することで、MLLMsの効率化を試みている。しかし、プレフィル（prefill）段階での視覚コンテキスト削減による効率性の向上は、デコード段階へ進むにつれて徐々にその効果を失ってしまう。この問題に対処するために、本研究では動的視覚言語コンテキスト疎化フレームワーク「Dynamic-LLaVA」を提案する。Dynamic-LLaVAは、プレフィル段階において視覚コンテキストの冗長性を動的に低減し、デコード段階における生成された言語コンテキストのメモリおよび計算負荷を削減することを可能にする。さらに、異なる推論モード（プレフィル、KVキャッシュあり/なしのデコード）に応じて最適化された疎化推論スキームを設計することで、MLLMsの効率的な推論を実現している。実践的な評価では、Dynamic-LLaVAはプレフィル段階で計算消費量を約75%削減できる。また、MLLMsの全生成プロセスにおいて、KVキャッシュなしのデコードでは計算消費量を約50%削減し、KVキャッシュありのデコードでは視覚言語コンテキストの疎化により約50%のGPUメモリ消費量の削減が達成される。広範な実験により、Dynamic-LLaVAは完全コンテキスト推論ベースラインと比較して、視覚理解能力や生成性能の低下をほとんど認めず、場合によっては性能向上すら達成することが示された。コードは以下のURLで公開されている：https://github.com/Osilly/dynamic_llava

ソースPDF