15日前

タイムリーな対応が九の問題を防ぐ:小さなVLMが大規模VLMの高速化を正確に導く

Wangbo Zhao, Yizeng Han, Jiasheng Tang, Zhikai Li, Yibing Song, Kai Wang, Zhangyang Wang, Yang You
タイムリーな対応が九の問題を防ぐ:小さなVLMが大規模VLMの高速化を正確に導く
要約

視覚言語モデル(VLMs)は、さまざまなマルチモーダルタスクにおいて顕著な成果を上げているが、多数の視覚トークンを処理するため、大規模なVLMでは効率性の課題に直面している。大規模VLMの推論を高速化する有望なアプローチとして、特定の層からのアテンションマップなどの部分的な情報を用いてトークンの重要度を評価し、重要な度合いが低いトークンを削除する手法がある。しかし、本研究では以下の3つの重要な知見を明らかにした:(i) 部分的なアテンション情報では、重要な視覚トークンを正確に特定することが困難であり、特にトークン保持率が低い場合に性能が劣化する;(ii) すべての層にわたるアテンションマップを統合したグローバルアテンション情報は、重要なトークンをより効果的に保持し、過剰な削減条件下でも比較的高い性能を維持できる。しかしながら、すべての層からのアテンションマップを取得するには完全な推論パスが必要であり、計算負荷が増大するため、従来の手法では実用的ではない;(iii) 小規模なVLMから得られるグローバルアテンションマップは、大規模なVLMのそれと非常に類似しており、効率的な代替手段となり得る。これらの知見を基に、我々は訓練不要な手法、すなわち「小規模VLMによる大規模VLM加速のためのガイドランス(SGL:Small VLM Guidance for accelerating Large VLMs)」を提案する。具体的には、小規模VLMから得られるアテンションマップを統合し、それを大規模VLMにおける視覚トークンの削減に活用する。さらに、早期終了機構(early exiting mechanism)を導入することで、小規模VLMの予測結果を最大限に活用し、必要に応じてのみ大規模VLMを起動するように動的に制御することで、精度と計算量の間で優れたトレードオフを実現する。11のベンチマークにおける広範な評価により、SGLの有効性と汎用性が確認され、視覚トークンの削減率が最大91%に達しながらも、競争力ある性能を維持することが示された。

タイムリーな対応が九の問題を防ぐ:小さなVLMが大規模VLMの高速化を正確に導く | 最新論文 | HyperAI超神経