2 个月前
LLaVA-NeXT-Interleave:在大型多模态模型中处理多图像、视频和3D数据
Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li

摘要
视觉指令调优在增强大型多模态模型(LMMs)的能力方面取得了显著进展。然而,现有的开放源码LMMs主要集中在单图像任务上,其在多图像场景中的应用仍较少被探索。此外,先前的LMM研究分别处理不同的场景,导致无法将新出现的能力泛化到跨场景应用中。为此,我们引入了LLaVA-NeXT-Interleave,该模型同时解决了多图像、多帧(视频)、多视角(3D)和多块(单图像)场景中的问题。为了实现这些能力,我们将交错数据格式视为一种通用模板,并编制了包含1,177,600个样本的M4-Instruct数据集,涵盖了4个主要领域、14项任务和41个数据集。我们还整理了LLaVA-Interleave基准测试,以全面评估LMMs在多图像任务上的性能。通过广泛的实验,LLaVA-NeXT-Interleave在多图像、视频和3D基准测试中取得了领先结果,同时保持了单图像任务的性能。此外,我们的模型还展示了几种新兴能力,例如在不同设置和模态之间迁移任务的能力。代码可在https://github.com/LLaVA-VL/LLaVA-NeXT 获取。