HyperAIHyperAI

Command Palette

Search for a command to run...

通过模型、数据和测试时扩展,拓展开源多模态模型的性能边界

摘要

我们推出 InternVL 2.5,这是一个先进的多模态大语言模型(MLLM)系列,基于 InternVL 2.0 进行演进,在保持其核心模型架构的基础上,显著提升了训练与测试策略以及数据质量。在本研究中,我们深入探讨了模型规模与性能之间的关系,系统性地分析了视觉编码器、语言模型、数据集规模以及测试时配置等关键因素的性能变化趋势。通过在广泛基准测试集上的大量评估,涵盖跨学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力以及纯语言处理等多个任务,InternVL 2.5 展现出具有竞争力的性能,可与 GPT-4o、Claude-3.5-Sonnet 等领先商业模型相媲美。尤为突出的是,我们的模型是首个在 MMMU 基准上突破 70% 的开源多模态大语言模型,通过引入思维链(Chain-of-Thought, CoT)推理,实现了 3.7 个百分点的提升,展现出强大的测试时扩展潜力。我们希望该模型能为开源社区带来积极贡献,推动多模态人工智能系统在开发与应用方面树立新的标准。HuggingFace 演示地址:https://huggingface.co/spaces/OpenGVLab/InternVL


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供