Command Palette
Search for a command to run...
オープンソース多モーダルモデルの性能境界をモデル、データ、テスト時スケーリングによって拡張する
オープンソース多モーダルモデルの性能境界をモデル、データ、テスト時スケーリングによって拡張する
概要
InternVL 2.5を紹介します。これは、InternVL 2.0を基盤としつつ、コアとなるモデルアーキテクチャを維持しつつ、学習および評価戦略、データ品質の面で顕著な改善を加えた、先進的な多モーダル大規模言語モデル(MLLM)シリーズです。本研究では、モデルスケーリングと性能の関係に着目し、視覚エンコーダー、言語モデル、データセットサイズ、テスト時設定の各要素における性能のトレンドを体系的に検証しました。多分野の推論、ドキュメント理解、複数画像/動画理解、現実世界の理解、多モーダル幻覚検出、視覚的グランドイング、多言語対応、純粋な言語処理を含む広範なベンチマークにおいて、広範な評価を実施した結果、InternVL 2.5はGPT-4oやClaude-3.5-Sonnetといった先進的な商用モデルと並ぶ競争力ある性能を示しました。特に、本モデルは、Chain-of-Thought(CoT)推論を活用することで、MMMUベンチマークで70%を突破する初のオープンソースMLLMとなり、3.7ポイントの向上を達成。テスト時スケーリングの強力な潜在能力も示しています。本モデルが、多モーダルAIシステムの開発と応用において新たな基準を提示し、オープンソースコミュニティの発展に貢献することを期待しています。HuggingFaceデモは以下からご確認ください:https://huggingface.co/spaces/OpenGVLab/InternVL