HyperAIHyperAI

Command Palette

Search for a command to run...

Infinity-MM:通过大规模和高质量的指令数据提升多模态性能

摘要

视觉-语言模型(VLMs)近年来取得了显著进展,但开源指令数据的规模和质量有限,导致其性能相比闭源模型有所不足。在本研究中,我们通过引入Infinity-MM来解决这一问题,这是一个包含4000万个样本的大规模多模态指令数据集,经过严格的质量过滤和去重处理。我们还提出了一种基于开源VLMs的合成指令生成方法,该方法利用详细的图像注释和多样化的提问生成。利用这些数据,我们训练了一个拥有20亿参数的VLM——Aquila-VL-2B,在类似规模的模型中达到了最先进的(SOTA)性能。这表明扩展指令数据并生成合成数据可以显著提升开源模型的性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供