Command Palette
Search for a command to run...
Yutong Wang Haiyu Wang Sai Qian Zhang

要約
視覚言語モデル(VLMs)は、画像のキャプション生成や視覚的質問応答などのタスクにおいて不可欠な役割を果たしているが、大規模なメモリ使用量と処理時間に起因する高い計算コストが、そのスケーラビリティおよびリアルタイム適用性を制限している。本研究では、共通のクエリ(Q)、キー(K)、値(V)重み行列に対して特異値分解(SVD)を適用することで、KVキャッシュのサイズおよび計算オーバーヘッドを低減する手法を提案する。さらに、VLMの精度に与える影響に基づいてSVDのランクを動的に調整する効率的なランク割当戦略を導入し、メモリ使用量および計算コストの大幅な削減を実現した。最終的に、VLMの重みおよび活性化値の両方に量子化を適用することで、さらに高効率なVLMを構築した。本手法は、単に量子化またはSVDに依存する従来手法を上回り、10%以上の精度向上を達成しつつ、ハードウェアコストを低減しているため、リソース制約のあるデバイスにおけるリアルタイム展開に優れた適性を持つ。