8 个月前

摘要

视频大模态模型（LMMs）的发展一直受到从网络中收集大量高质量原始数据难度的阻碍。为了解决这一问题，我们提出了一种替代方法，即创建一个专门用于视频指令跟随的高质量合成数据集——LLaVA-Video-178K。该数据集包括详细字幕生成、开放式问答（QA）和选择题问答等关键任务。通过在该数据集上进行训练，并结合现有的视觉指令调优数据，我们引入了新的视频LMM——LLaVA-Video。实验结果表明，LLaVA-Video在各种视频基准测试中表现出色，突显了我们数据集的有效性。我们计划发布该数据集、其生成管道以及模型检查点。

源 PDF