Command Palette
Search for a command to run...
Senqiao Yang Yukang Chen Zhuotao Tian Chengyao Wang Jingyao Li Bei Yu Jiaya Jia

要約
視覚言語モデルの最近の進展により、視覚トークンの長さを延長することで性能が向上しているが、その結果、視覚トークンはテキストトークンよりもはるかに長くなり、計算コストが著しく増加している。しかしながら、我々は、CLIP や SigLIP などの代表的な視覚エンコーダーが生成する視覚トークンには、顕著な重複が含まれていることを観察した。この問題に対処するため、本研究では、言語モデルへの入力に有用なトークンの集合を選択するシンプルかつ効果的な手法「VisionZip」を提案する。この手法により、視覚トークンの冗長性を低減し、モデルの効率性を向上させながら、性能の維持・向上を実現する。提案する VisionZip は、画像および動画理解タスクに広く適用可能であり、実世界のシナリオにおけるマルチターン対話に特に適している。従来の手法はこうした場面で性能が劣りがちであるが、VisionZip はその課題を克服する。実験の結果、VisionZip はほぼすべての設定において、従来の最先端手法よりも少なくとも5%の性能向上を達成した。さらに、本手法はモデルの推論速度を顕著に向上させ、プレフィル(prefilling)時間において8倍の高速化を実現。これにより、LLaVA-Next 13B モデルが LLaVA-Next 7B モデルよりも高速に推論を実行しつつ、より優れた結果を達成することが可能になった。また、本研究ではこの冗長性の原因を分析し、単にトークン長を延長するのではなく、より質の高い視覚特徴の抽出に注力するようコミュニティに呼びかけている。本研究のコードは、https://github.com/dvlab-research/VisionZip にて公開されている。
コードリポジトリ
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| visual-question-answering-on-mm-vet | VisionZip (Retain 128 Tokens, fine-tuning) | GPT-4 score: 32.9 |
| visual-question-answering-on-mm-vet | VisionZip (Retain 64 Tokens, fine-tuning) | GPT-4 score: 30.2 |
| visual-question-answering-on-mm-vet | VisionZip (Retain 128 Tokens) | GPT-4 score: 32.6 |
| visual-question-answering-on-mm-vet | VisionZip (Retain 192 Tokens, fine-tuning) | GPT-4 score: 32.6 |
| visual-question-answering-on-mm-vet | VisionZip (Retain 192 Tokens) | GPT-4 score: 31.7 |
| visual-question-answering-on-mm-vet | VisionZip (Retain 64 Tokens) | GPT-4 score: 31.7 |