3ヶ月前

視覚質問応答

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

Yutong Wang Haiyu Wang Sai Qian Zhang

概要

視覚言語モデル（VLMs）は、画像のキャプション生成や視覚的質問応答などのタスクにおいて不可欠な役割を果たしているが、大規模なメモリ使用量と処理時間に起因する高い計算コストが、そのスケーラビリティおよびリアルタイム適用性を制限している。本研究では、共通のクエリ（Q）、キー（K）、値（V）重み行列に対して特異値分解（SVD）を適用することで、KVキャッシュのサイズおよび計算オーバーヘッドを低減する手法を提案する。さらに、VLMの精度に与える影響に基づいてSVDのランクを動的に調整する効率的なランク割当戦略を導入し、メモリ使用量および計算コストの大幅な削減を実現した。最終的に、VLMの重みおよび活性化値の両方に量子化を適用することで、さらに高効率なVLMを構築した。本手法は、単に量子化またはSVDに依存する従来手法を上回り、10％以上の精度向上を達成しつつ、ハードウェアコストを低減しているため、リソース制約のあるデバイスにおけるリアルタイム展開に優れた適性を持つ。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

3ヶ月前

視覚質問応答

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

Yutong Wang Haiyu Wang Sai Qian Zhang

概要

視覚言語モデル（VLMs）は、画像のキャプション生成や視覚的質問応答などのタスクにおいて不可欠な役割を果たしているが、大規模なメモリ使用量と処理時間に起因する高い計算コストが、そのスケーラビリティおよびリアルタイム適用性を制限している。本研究では、共通のクエリ（Q）、キー（K）、値（V）重み行列に対して特異値分解（SVD）を適用することで、KVキャッシュのサイズおよび計算オーバーヘッドを低減する手法を提案する。さらに、VLMの精度に与える影響に基づいてSVDのランクを動的に調整する効率的なランク割当戦略を導入し、メモリ使用量および計算コストの大幅な削減を実現した。最終的に、VLMの重みおよび活性化値の両方に量子化を適用することで、さらに高効率なVLMを構築した。本手法は、単に量子化またはSVDに依存する従来手法を上回り、10％以上の精度向上を達成しつつ、ハードウェアコストを低減しているため、リソース制約のあるデバイスにおけるリアルタイム展開に優れた適性を持つ。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

QSVD：低精度視覚言語モデルにおける統合的クエリ・キー・バリュー重み圧縮のための効率的低ランク近似 | 記事 | HyperAI超神経