8 个月前

统一多模态

Feng Li Renrui Zhang Hao Zhang Yuanhan Zhang Bo Li Wei Li Zejun Ma Chunyuan Li

摘要

视觉指令调优在增强大型多模态模型（LMMs）的能力方面取得了显著进展。然而，现有的开放源码LMMs主要集中在单图像任务上，其在多图像场景中的应用仍较少被探索。此外，先前的LMM研究分别处理不同的场景，导致无法将新出现的能力泛化到跨场景应用中。为此，我们引入了LLaVA-NeXT-Interleave，该模型同时解决了多图像、多帧（视频）、多视角（3D）和多块（单图像）场景中的问题。为了实现这些能力，我们将交错数据格式视为一种通用模板，并编制了包含1,177,600个样本的M4-Instruct数据集，涵盖了4个主要领域、14项任务和41个数据集。我们还整理了LLaVA-Interleave基准测试，以全面评估LMMs在多图像任务上的性能。通过广泛的实验，LLaVA-NeXT-Interleave在多图像、视频和3D基准测试中取得了领先结果，同时保持了单图像任务的性能。此外，我们的模型还展示了几种新兴能力，例如在不同设置和模态之间迁移任务的能力。代码可在https://github.com/LLaVA-VL/LLaVA-NeXT 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

Feng Li Renrui Zhang Hao Zhang Yuanhan Zhang Bo Li Wei Li Zejun Ma Chunyuan Li

摘要

视觉指令调优在增强大型多模态模型（LMMs）的能力方面取得了显著进展。然而，现有的开放源码LMMs主要集中在单图像任务上，其在多图像场景中的应用仍较少被探索。此外，先前的LMM研究分别处理不同的场景，导致无法将新出现的能力泛化到跨场景应用中。为此，我们引入了LLaVA-NeXT-Interleave，该模型同时解决了多图像、多帧（视频）、多视角（3D）和多块（单图像）场景中的问题。为了实现这些能力，我们将交错数据格式视为一种通用模板，并编制了包含1,177,600个样本的M4-Instruct数据集，涵盖了4个主要领域、14项任务和41个数据集。我们还整理了LLaVA-Interleave基准测试，以全面评估LMMs在多图像任务上的性能。通过广泛的实验，LLaVA-NeXT-Interleave在多图像、视频和3D基准测试中取得了领先结果，同时保持了单图像任务的性能。此外，我们的模型还展示了几种新兴能力，例如在不同设置和模态之间迁移任务的能力。代码可在https://github.com/LLaVA-VL/LLaVA-NeXT 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供