Command Palette

Search for a command to run...

2ヶ月前

MMTok:VLMの効率的推論のためのマルチモーダルカバレッジ最大化

Sixun Dong Juhua Hu Mian Zhang Ming Yin Yanjie Fu Qi Qian

MMTok:VLMの効率的推論のためのマルチモーダルカバレッジ最大化

要約

視覚言語モデル(VLMs)は、視覚入力を視覚トークンに変換することで、言語指示に基づいた視覚コンテンツの理解において優れた性能を発揮する。しかし、視覚トークンに生じる冗長性により、VLMsの推論効率が低下するという問題が存在する。多くのアルゴリズムが視覚トークン数の削減を目的として提案されているが、それらの多くは単一モーダル情報(すなわち視覚/テキスト)のみを用いてトークンの削除(プルーニング)を実施しており、視覚言語タスクに内在する多モーダル性を無視している。さらに、異なるモーダルに対応可能な汎用的な評価基準が欠如している。この制約を緩和するために、本研究では「カバレッジ(覆蓋度)」という基準に基づき、視覚トークンとテキストトークンの両方を活用して情報量の多い視覚トークンを選択する手法を提案する。まず、サブセット選択問題を最大カバレッジ問題として定式化する。その後、最適化された視覚トークンサブセットが、テキストトークンおよび元の視覚トークン集合の両方を同時にカバーするように設計する。最後に、VLMエージェントを導入し、視覚プルーニングをガイドするためのテキストトークンの品質をさらに向上させる。提案手法MMTokは、複数のVLMを用いてベンチマークデータセット上で広範に評価された。比較結果から、視覚情報とテキスト情報は相補的であり、多モーダル情報を統合することで、単一モーダルベースラインを明確な差で上回ることが示された。特にPOPEデータセットにおいて最大カバレッジ基準を採用した場合、LLaVA-NeXT-13Bでは1.87倍の高速化を達成しつつ、元の性能の98.7%を維持した。また、視覚トークンをわずか4つに制限しても、LLaVA-1.5-7Bでは元の性能の87.7%を保持することができた。これらの結果は、カバレッジ基準がトークン選択において高い有効性を示していることを強調している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MMTok:VLMの効率的推論のためのマルチモーダルカバレッジ最大化 | 論文 | HyperAI超神経