Command Palette
Search for a command to run...
Qwen2-VL:任意解像度における視覚言語モデルの世界認識能力の向上
Qwen2-VL:任意解像度における視覚言語モデルの世界認識能力の向上
概要
我々は、従来の固定解像度アプローチを刷新する先進的なアップグレード版として、Qwen2-VLシリーズを発表する。このモデルは、画像の解像度に応じて可変な数の視覚トークンに動的に処理する「ナイーブ・ダイナミック解像度(Naive Dynamic Resolution)」機構を導入しており、人間の知覚プロセスに近い、より効率的かつ正確な視覚表現の生成を可能にする。また、テキスト、画像、動画の間で位置情報の有効な統合を実現する「マルチモーダル・ロータリーポジショナル埋め込み(Multimodal Rotary Position Embedding, M-RoPE)」を統合している。画像と動画の処理に統一されたパラダイムを採用することで、モデルの視覚認識能力を強化している。さらに、大規模マルチモーダルモデルの潜在能力を探索するため、大規模視覚言語モデル(LVLM)におけるスケーリング則を調査した。モデルサイズ(2B、8B、72Bパラメータのバージョン)と学習データ量の両方をスケーリングすることで、Qwen2-VLシリーズは非常に競争力のある性能を達成した。特に、Qwen2-VL-72Bモデルは、GPT-4oやClaude3.5-Sonnetといった最先端モデルと同等の結果を、さまざまなマルチモーダルベンチマークで達成し、他の汎用モデルを上回っている。コードは以下のURLで公開されている:https://github.com/QwenLM/Qwen2-VL。