HyperAIHyperAI

Command Palette

Search for a command to run...

GPT-4Vまでの道のりはどのくらいか?オープンソース・スイートによる商用マルチモーダルモデルとのギャップを埋める

概要

本報告では、多モーダル理解におけるオープンソースモデルと商用プロプライエタリモデルの能力格差を埋めるためのオープンソース多モーダル大規模言語モデル(MLLM)「InternVL 1.5」を紹介する。本モデルは以下の3つの簡潔な改善を導入している。(1)強力な視覚エンコーダ:大規模な視覚基盤モデル「InternViT-6B」に対して、連続学習戦略を検討し、視覚理解能力を向上させるとともに、異なる大規模言語モデル(LLM)への転移・再利用が可能となるようにした。(2)動的高解像度処理:入力画像のアスペクト比および解像度に応じて、画像を1~40枚の448×448ピクセルのタイルに分割する方式を採用し、最大4K解像度の入力に対応可能となった。(3)高品質なバイリンガルデータセット:日常的なシーン、文書画像を網羅する高品質なバイリンガルデータセットを収集し、英語および中国語の質問-回答ペアで注釈を付与した。これにより、OCR関連および中国語関連のタスクにおける性能が顕著に向上した。InternVL 1.5は、多数のベンチマークおよび比較研究を通じて評価された。オープンソースモデルおよびプロプライエタリモデルと比較して、InternVL 1.5は競争力ある性能を示し、18のベンチマークのうち8つで最先端(SOTA)の結果を達成した。コードは https://github.com/OpenGVLab/InternVL にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています