8ヶ月前

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

Peng Wang Shuai Bai Sinan Tan Shijie Wang Zhihao Fan Jinze Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge

概要

我々は、従来の固定解像度アプローチを刷新する先進的なアップグレード版として、Qwen2-VLシリーズを発表する。このモデルは、画像の解像度に応じて可変な数の視覚トークンに動的に処理する「ナイーブ・ダイナミック解像度（Naive Dynamic Resolution）」機構を導入しており、人間の知覚プロセスに近い、より効率的かつ正確な視覚表現の生成を可能にする。また、テキスト、画像、動画の間で位置情報の有効な統合を実現する「マルチモーダル・ロータリーポジショナル埋め込み（Multimodal Rotary Position Embedding, M-RoPE）」を統合している。画像と動画の処理に統一されたパラダイムを採用することで、モデルの視覚認識能力を強化している。さらに、大規模マルチモーダルモデルの潜在能力を探索するため、大規模視覚言語モデル（LVLM）におけるスケーリング則を調査した。モデルサイズ（2B、8B、72Bパラメータのバージョン）と学習データ量の両方をスケーリングすることで、Qwen2-VLシリーズは非常に競争力のある性能を達成した。特に、Qwen2-VL-72Bモデルは、GPT-4oやClaude3.5-Sonnetといった最先端モデルと同等の結果を、さまざまなマルチモーダルベンチマークで達成し、他の汎用モデルを上回っている。コードは以下のURLで公開されている：https://github.com/QwenLM/Qwen2-VL。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

Peng Wang Shuai Bai Sinan Tan Shijie Wang Zhihao Fan Jinze Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge

概要

我々は、従来の固定解像度アプローチを刷新する先進的なアップグレード版として、Qwen2-VLシリーズを発表する。このモデルは、画像の解像度に応じて可変な数の視覚トークンに動的に処理する「ナイーブ・ダイナミック解像度（Naive Dynamic Resolution）」機構を導入しており、人間の知覚プロセスに近い、より効率的かつ正確な視覚表現の生成を可能にする。また、テキスト、画像、動画の間で位置情報の有効な統合を実現する「マルチモーダル・ロータリーポジショナル埋め込み（Multimodal Rotary Position Embedding, M-RoPE）」を統合している。画像と動画の処理に統一されたパラダイムを採用することで、モデルの視覚認識能力を強化している。さらに、大規模マルチモーダルモデルの潜在能力を探索するため、大規模視覚言語モデル（LVLM）におけるスケーリング則を調査した。モデルサイズ（2B、8B、72Bパラメータのバージョン）と学習データ量の両方をスケーリングすることで、Qwen2-VLシリーズは非常に競争力のある性能を達成した。特に、Qwen2-VL-72Bモデルは、GPT-4oやClaude3.5-Sonnetといった最先端モデルと同等の結果を、さまざまなマルチモーダルベンチマークで達成し、他の汎用モデルを上回っている。コードは以下のURLで公開されている：https://github.com/QwenLM/Qwen2-VL。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています