11日前
GPT-4V までどれほど遠いのか?オープンソース・スイートによる商用マルチモーダルモデルへのギャップ解消
Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, Ji Ma, Jiaqi Wang, Xiaoyi Dong, Hang Yan, Hewei Guo, Conghui He, Zhenjiang Jin, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao

要約
本報告では、マルチモーダル理解におけるオープンソースモデルと専用商用モデルの能力差を埋めるためのオープンソースマルチモーダル大規模言語モデル(MLLM)「InternVL 1.5」を紹介する。本モデルは以下の3つのシンプルな改良を導入している。(1)強力なビジョンエンコーダ:大規模ビジョン基礎モデルであるInternViT-6Bに対して、継続的学習(continuous learning)戦略を検討し、視覚理解能力を向上させるとともに、異なる大規模言語モデル(LLM)への転移・再利用を可能にした。(2)動的高解像度処理:入力画像のアスペクト比および解像度に応じて、画像を1~40枚の448×448ピクセルのタイルに分割する仕組みを採用し、最大4K解像度の入力をサポートしている。(3)高品質なバイリンガルデータセット:日常シーン、文書画像をカバーする高品質なバイリンガルデータセットを丁寧に収集し、英語および中国語の質問・回答ペアでアノテーションを実施。これにより、OCR関連および中国語関連タスクにおける性能が顕著に向上した。InternVL 1.5は、多数のベンチマークおよび比較研究を通じて評価された結果、オープンソースモデルおよび専用モデルと比較しても競争力のある性能を示し、18のベンチマークのうち8つで最先端(SOTA)の成果を達成した。コードはhttps://github.com/OpenGVLab/InternVLにて公開されている。