2ヶ月前
Qwen-VL: 多機能な視覚言語モデルによる理解、局所化、テキスト読み取りおよびそれ以上の応用
Bai, Jinze ; Bai, Shuai ; Yang, Shusheng ; Wang, Shijie ; Tan, Sinan ; Wang, Peng ; Lin, Junyang ; Zhou, Chang ; Zhou, Jingren

要約
本研究では、テキストと画像の両方を認識・理解する大規模なビジョン言語モデル(Vision-Language Models: LVLMs)であるQwen-VLシリーズを紹介します。Qwen-LMを基盤として、(i) 精密に設計された視覚受容器、(ii) 入出力インターフェース、(iii) 3段階の学習パイプライン、(iv) 多言語多モーダルクリーンコーパスにより、視覚的な能力を付与しています。従来の画像説明や質問応答に加え、画像-キャプション-ボックスの組み合わせをアライメントすることで、Qwen-VLシリーズの位置づけとテキスト読み取り能力を実装しています。その結果得られたモデルであるQwen-VLおよびQwen-VL-Chatは、類似したモデルサイズを持つ汎用モデルにおいて、広範な視覚中心ベンチマーク(例:画像キャプション生成、質問応答、視覚的グラウンドニング)や異なる設定(例:ゼロショット、ファーソット)で新しい記録を樹立しました。さらに、実世界の対話ベンチマークにおいても、指示調整が施されたQwen-VL-Chatは既存のビジョン言語チャットボットに対して優れた性能を示しています。コード、デモ、モデルは https://github.com/QwenLM/Qwen-VL で公開されています。