3ヶ月前

VisionZip：視覚言語モデルにおいて、長ければ長いほど良いが、必ずしも必要ではない

Senqiao Yang Yukang Chen Zhuotao Tian Chengyao Wang Jingyao Li Bei Yu Jiaya Jia

要約

視覚言語モデルの最近の進展により、視覚トークンの長さを延長することで性能が向上しているが、その結果、視覚トークンはテキストトークンよりもはるかに長くなり、計算コストが著しく増加している。しかしながら、我々は、CLIP や SigLIP などの代表的な視覚エンコーダーが生成する視覚トークンには、顕著な重複が含まれていることを観察した。この問題に対処するため、本研究では、言語モデルへの入力に有用なトークンの集合を選択するシンプルかつ効果的な手法「VisionZip」を提案する。この手法により、視覚トークンの冗長性を低減し、モデルの効率性を向上させながら、性能の維持・向上を実現する。提案する VisionZip は、画像および動画理解タスクに広く適用可能であり、実世界のシナリオにおけるマルチターン対話に特に適している。従来の手法はこうした場面で性能が劣りがちであるが、VisionZip はその課題を克服する。実験の結果、VisionZip はほぼすべての設定において、従来の最先端手法よりも少なくとも5%の性能向上を達成した。さらに、本手法はモデルの推論速度を顕著に向上させ、プレフィル（prefilling）時間において8倍の高速化を実現。これにより、LLaVA-Next 13B モデルが LLaVA-Next 7B モデルよりも高速に推論を実行しつつ、より優れた結果を達成することが可能になった。また、本研究ではこの冗長性の原因を分析し、単にトークン長を延長するのではなく、より質の高い視覚特徴の抽出に注力するようコミュニティに呼びかけている。本研究のコードは、https://github.com/dvlab-research/VisionZip にて公開されている。

コードリポジトリ

dvlab-research/visionzip

公式

pytorch

GitHubで言及

ベンチマーク

ベンチマーク	方法論	指標
visual-question-answering-on-mm-vet	VisionZip (Retain 128 Tokens, fine-tuning)	GPT-4 score: 32.9
visual-question-answering-on-mm-vet	VisionZip (Retain 64 Tokens, fine-tuning)	GPT-4 score: 30.2
visual-question-answering-on-mm-vet	VisionZip (Retain 128 Tokens)	GPT-4 score: 32.6
visual-question-answering-on-mm-vet	VisionZip (Retain 192 Tokens, fine-tuning)	GPT-4 score: 32.6
visual-question-answering-on-mm-vet	VisionZip (Retain 192 Tokens)	GPT-4 score: 31.7
visual-question-answering-on-mm-vet	VisionZip (Retain 64 Tokens)	GPT-4 score: 31.7

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette