2ヶ月前

Qwen2-VL: 任意解像度でのビジョン・ランゲージモデルの世界認識の向上

Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin
Qwen2-VL: 任意解像度でのビジョン・ランゲージモデルの世界認識の向上
要約

私たちは、従来の予定された解像度アプローチを再定義する先進的なアップグレード版であるQwen2-VLシリーズを紹介します。Qwen2-VLは、Naive Dynamic Resolution(ナイブ動的解像度)メカニズムを導入しており、このメカニズムにより、異なる解像度の画像を異なる数のビジュアルトークンに動的に処理することが可能になりました。この手法はモデルがより効率的で正確な視覚表現を生成し、人間の知覚過程に近づくことを可能にします。さらに、モデルにはMultimodal Rotary Position Embedding(M-RoPE、マルチモーダル回転位置埋め込み)が統合されており、テキスト、画像、ビデオ間での位置情報の効果的な融合を促進します。私たちは画像とビデオの処理に統一したパラダイムを採用し、モデルの視覚認識能力を向上させています。大規模マルチモーダルモデルの可能性を探るため、Qwen2-VLは大規模ビジョン言語モデル(LVLMs)のスケーリング法則について調査しています。モデルサイズ(2B、8B、72Bパラメータ版)と学習データ量の両方をスケールアップすることで、Qwen2-VLシリーズは非常に競争力のある性能を達成しました。特にQwen2-VL-72Bモデルは、さまざまなマルチモーダルベンチマークにおいてGPT-4oやClaude3.5-Sonnetなどの最先端モデルと同等以上の結果を示しており、他の汎用モデルを上回っています。コードは以下のURLから入手可能です: https://github.com/QwenLM/Qwen2-VL.

Qwen2-VL: 任意解像度でのビジョン・ランゲージモデルの世界認識の向上 | 最新論文 | HyperAI超神経