HyperAIHyperAI

Command Palette

Search for a command to run...

Qwen2-VL:任意解像度における視覚言語モデルの世界認識能力の向上

概要

我々は、従来の固定解像度アプローチを刷新する先進的なアップグレード版として、Qwen2-VLシリーズを発表する。このモデルは、画像の解像度に応じて可変な数の視覚トークンに動的に処理する「ナイーブ・ダイナミック解像度(Naive Dynamic Resolution)」機構を導入しており、人間の知覚プロセスに近い、より効率的かつ正確な視覚表現の生成を可能にする。また、テキスト、画像、動画の間で位置情報の有効な統合を実現する「マルチモーダル・ロータリーポジショナル埋め込み(Multimodal Rotary Position Embedding, M-RoPE)」を統合している。画像と動画の処理に統一されたパラダイムを採用することで、モデルの視覚認識能力を強化している。さらに、大規模マルチモーダルモデルの潜在能力を探索するため、大規模視覚言語モデル(LVLM)におけるスケーリング則を調査した。モデルサイズ(2B、8B、72Bパラメータのバージョン)と学習データ量の両方をスケーリングすることで、Qwen2-VLシリーズは非常に競争力のある性能を達成した。特に、Qwen2-VL-72Bモデルは、GPT-4oやClaude3.5-Sonnetといった最先端モデルと同等の結果を、さまざまなマルチモーダルベンチマークで達成し、他の汎用モデルを上回っている。コードは以下のURLで公開されている:https://github.com/QwenLM/Qwen2-VL


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています