8 天前
Shotluck Holmes:面向视频字幕生成与摘要的一类高效小规模大语言视觉模型
Richard Luo, Austin Peng, Adithya Vasudev, Rishabh Jain

摘要
视频作为一种日益突出且信息密度高的媒介,对语言模型提出了重大挑战。一段典型的视频由一系列较短的片段(即镜头)组成,这些镜头共同构成一个连贯的叙事。每个镜头类似于句子中的一个词,需要同时处理多种信息流(如视觉与听觉数据)。要全面理解整个视频,不仅需要解析每个镜头的视听信息,还要求模型能够建立镜头之间的语义关联,从而生成一个完整而统一的故事。尽管该领域已取得显著进展,但现有方法往往忽视了视频更细粒度的逐镜头语义信息。在本项目中,我们提出了一类高效的大规模语言视觉模型(Large Language Vision Models, LLVMs),命名为 Shotluck Holmes,旨在提升视频摘要与字幕生成性能。通过采用更优的预训练策略与数据收集方法,我们成功将现有小型 LLVM 模型的能力从理解单张图像扩展至理解连续帧序列。具体而言,Shotluck Holmes 在 Shot2Story 视频字幕生成与摘要任务上,取得了优于当前最先进水平的结果,同时使用了更小、计算效率更高的模型架构。