2 个月前

TS-LLaVA：通过缩略图和采样构建视觉标记以实现无需训练的视频大语言模型

Tingyu Qu; Mingxiao Li; Tinne Tuytelaars; Marie-Francine Moens

摘要

近期在多模态大语言模型（LLMs）方面的进展显示了其在理解多模态内容方面取得了显著成功。然而，对于视频理解任务而言，基于训练的视频LLM由于缺乏高质量、精心整理的视频-文本配对数据而难以构建。相比之下，图像-文本配对数据更容易获取，并且图像和视频之间存在显著的相似性。因此，将图像LLM扩展用于视频理解任务成为了一个有吸引力的替代方案。开发有效的策略来压缩多个帧中的视觉标记是一种利用强大预训练图像LLM的有前景的方法。在这项工作中，我们探讨了现有压缩策略在构建无需训练的视频LLM时的局限性。研究结果促使我们提出了TS-LLaVA方法，该方法通过缩略图和采样（Thumbnail-and-Sampling）策略构建视觉标记。给定一段视频，我们从所有输入帧中选择少数等距帧来构造一个详细的缩略图作为视觉提示，并辅以从所有输入帧中采样的视觉标记。我们的方法在各种基准测试中建立了无需训练的视频LLM的新最先进性能。值得注意的是，我们的340亿参数模型在MVBench基准上优于GPT-4V，并在具有挑战性的MLVU基准上达到了与720亿参数的基于训练的视频LLM Video-LLaMA2相当的性能。代码可在https://github.com/tingyu215/TS-LLaVA 获取。