17日前
オープンソースマルチモーダルモデルの性能境界をモデル、データ、テスト時スケーリングにより拡張する
Zhe Chen, Weiyun Wang, Yue Cao, Yangzhou Liu, Zhangwei Gao, Erfei Cui, Jinguo Zhu, Shenglong Ye, Hao Tian, Zhaoyang Liu, Lixin Gu, Xuehui Wang, Qingyun Li, Yimin Ren, Zixuan Chen, Jiapeng Luo, Jiahao Wang, Tan Jiang, Bo Wang, Conghui He, Botian Shi, Xingcheng Zhang, Han Lv, Yi Wang, Wenqi Shao, Pei Chu, Zhongying Tu, Tong He, Zhiyong Wu, Huipeng Deng, Jiaye Ge, Kai Chen, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang

要約
InternVL 2.5 を紹介します。これは、InternVL 2.0 を基盤としつつ、コアとなるモデルアーキテクチャを維持しつつ、トレーニングおよびテスト戦略、データ品質において顕著な改善を加えた先進的なマルチモーダル大規模言語モデル(MLLM)シリーズです。本研究では、モデルスケーリングと性能の関係に着目し、視覚エンコーダー、言語モデル、データセットサイズ、テスト時設定の各要素における性能トレンドを体系的に調査しました。多様なベンチマークにおいて広範な評価を実施した結果、包括的推論、ドキュメント理解、複数画像/動画理解、現実世界の理解、マルチモーダル幻覚検出、視覚的接地、多言語対応、純粋な言語処理など、幅広いタスクにおいて、GPT-4o や Claude-3.5-Sonnet といった主要な商用モデルと並ぶ競争力ある性能を示しました。特に注目すべきは、本モデルが、Chain-of-Thought(CoT)推論を活用することで、MMMUベンチマークで70%を初めて超える成果を達成した点であり、3.7ポイントの向上を実現しました。これにより、テスト時スケーリング(test-time scaling)の大きな潜在能力が示されました。本モデルが、オープンソースコミュニティの発展に貢献し、マルチモーダルAIシステムの開発と応用における新たな基準を設定することを期待しています。HuggingFaceデモは以下のリンクからご確認ください:https://huggingface.co/spaces/OpenGVLab/InternVL