
摘要
视频大模态模型(LMMs)的发展一直受到从网络中收集大量高质量原始数据难度的阻碍。为了解决这一问题,我们提出了一种替代方法,即创建一个专门用于视频指令跟随的高质量合成数据集——LLaVA-Video-178K。该数据集包括详细字幕生成、开放式问答(QA)和选择题问答等关键任务。通过在该数据集上进行训练,并结合现有的视觉指令调优数据,我们引入了新的视频LMM——LLaVA-Video。实验结果表明,LLaVA-Video在各种视频基准测试中表现出色,突显了我们数据集的有效性。我们计划发布该数据集、其生成管道以及模型检查点。