HyperAIHyperAI

Command Palette

Search for a command to run...

Dynamic-LLaVA:動的視覚言語コンテキスト疎化による効率的なマルチモーダル大規模言語モデル

Wenxuan Huang Zijie Zhai Yunhang Shen Shaosheng Cao Fei Zhao Xiangfeng Xu Zheyu Ye Yao Hu Shaohui Lin

概要

マルチモーダル大規模言語モデル(MLLMs)は、視覚理解、推論および対話において顕著な成果を上げている。しかし、デコード過程における出力トークンの生成に伴い、推論計算量とメモリ使用量が継続的に増加するため、MLLMsの効率性が直接的に損なわれる問題がある。既存の手法は、視覚的コンテキストの冗長性を低減することで、MLLMsの効率化を試みている。しかし、プレフィル(prefill)段階での視覚コンテキスト削減による効率性の向上は、デコード段階へ進むにつれて徐々にその効果を失ってしまう。この問題に対処するために、本研究では動的視覚言語コンテキスト疎化フレームワーク「Dynamic-LLaVA」を提案する。Dynamic-LLaVAは、プレフィル段階において視覚コンテキストの冗長性を動的に低減し、デコード段階における生成された言語コンテキストのメモリおよび計算負荷を削減することを可能にする。さらに、異なる推論モード(プレフィル、KVキャッシュあり/なしのデコード)に応じて最適化された疎化推論スキームを設計することで、MLLMsの効率的な推論を実現している。実践的な評価では、Dynamic-LLaVAはプレフィル段階で計算消費量を約75%削減できる。また、MLLMsの全生成プロセスにおいて、KVキャッシュなしのデコードでは計算消費量を約50%削減し、KVキャッシュありのデコードでは視覚言語コンテキストの疎化により約50%のGPUメモリ消費量の削減が達成される。広範な実験により、Dynamic-LLaVAは完全コンテキスト推論ベースラインと比較して、視覚理解能力や生成性能の低下をほとんど認めず、場合によっては性能向上すら達成することが示された。コードは以下のURLで公開されている:https://github.com/Osilly/dynamic_llava


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Dynamic-LLaVA:動的視覚言語コンテキスト疎化による効率的なマルチモーダル大規模言語モデル | 記事 | HyperAI超神経