2 个月前

基于合成数据的视频指令调优

Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li
基于合成数据的视频指令调优
摘要

视频大模态模型(LMMs)的发展一直受到从网络中收集大量高质量原始数据难度的阻碍。为了解决这一问题,我们提出了一种替代方法,即创建一个专门用于视频指令跟随的高质量合成数据集——LLaVA-Video-178K。该数据集包括详细字幕生成、开放式问答(QA)和选择题问答等关键任务。通过在该数据集上进行训练,并结合现有的视觉指令调优数据,我们引入了新的视频LMM——LLaVA-Video。实验结果表明,LLaVA-Video在各种视频基准测试中表现出色,突显了我们数据集的有效性。我们计划发布该数据集、其生成管道以及模型检查点。

基于合成数据的视频指令调优 | 最新论文 | HyperAI超神经