8ヶ月前

視覚質問応答

マルチモーダル

マルチモーダル

Jinze Bai Shuai Bai Shusheng Yang Shijie Wang Sinan Tan Peng Wang Junyang Lin Chang Zhou Jingren Zhou

概要

本研究では、テキストと画像の両方を認識・理解する大規模なビジョン言語モデル（Vision-Language Models: LVLMs）であるQwen-VLシリーズを紹介します。Qwen-LMを基盤として、(i) 精密に設計された視覚受容器、(ii) 入出力インターフェース、(iii) 3段階の学習パイプライン、(iv) 多言語多モーダルクリーンコーパスにより、視覚的な能力を付与しています。従来の画像説明や質問応答に加え、画像-キャプション-ボックスの組み合わせをアライメントすることで、Qwen-VLシリーズの位置づけとテキスト読み取り能力を実装しています。その結果得られたモデルであるQwen-VLおよびQwen-VL-Chatは、類似したモデルサイズを持つ汎用モデルにおいて、広範な視覚中心ベンチマーク（例：画像キャプション生成、質問応答、視覚的グラウンドニング）や異なる設定（例：ゼロショット、ファーソット）で新しい記録を樹立しました。さらに、実世界の対話ベンチマークにおいても、指示調整が施されたQwen-VL-Chatは既存のビジョン言語チャットボットに対して優れた性能を示しています。コード、デモ、モデルは https://github.com/QwenLM/Qwen-VL で公開されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

視覚質問応答

マルチモーダル

マルチモーダル

Jinze Bai Shuai Bai Shusheng Yang Shijie Wang Sinan Tan Peng Wang Junyang Lin Chang Zhou Jingren Zhou

概要

本研究では、テキストと画像の両方を認識・理解する大規模なビジョン言語モデル（Vision-Language Models: LVLMs）であるQwen-VLシリーズを紹介します。Qwen-LMを基盤として、(i) 精密に設計された視覚受容器、(ii) 入出力インターフェース、(iii) 3段階の学習パイプライン、(iv) 多言語多モーダルクリーンコーパスにより、視覚的な能力を付与しています。従来の画像説明や質問応答に加え、画像-キャプション-ボックスの組み合わせをアライメントすることで、Qwen-VLシリーズの位置づけとテキスト読み取り能力を実装しています。その結果得られたモデルであるQwen-VLおよびQwen-VL-Chatは、類似したモデルサイズを持つ汎用モデルにおいて、広範な視覚中心ベンチマーク（例：画像キャプション生成、質問応答、視覚的グラウンドニング）や異なる設定（例：ゼロショット、ファーソット）で新しい記録を樹立しました。さらに、実世界の対話ベンチマークにおいても、指示調整が施されたQwen-VL-Chatは既存のビジョン言語チャットボットに対して優れた性能を示しています。コード、デモ、モデルは https://github.com/QwenLM/Qwen-VL で公開されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています