17 天前

TimeSuite:通过基于实体的微调提升MLLMs在长视频理解中的性能

Xiangyu Zeng, Kunchang Li, Chenting Wang, Xinhao Li, Tianxiang Jiang, Ziang Yan, Songze Li, Yansong Shi, Zhengrong Yue, Yi Wang, Yali Wang, Yu Qiao, Limin Wang
TimeSuite:通过基于实体的微调提升MLLMs在长视频理解中的性能
摘要

多模态大语言模型(Multimodal Large Language Models, MLLMs)在短时视频理解任务中已展现出卓越性能。然而,对于长视频的理解,现有MLLMs仍面临显著挑战。本文提出TimeSuite,一套面向长视频理解的创新设计体系,旨在将现有的短时视频MLLMs适配至长视频场景。该体系包含三项核心组件:一种简洁而高效的长视频序列处理框架、一个高质量的视频数据集以支持MLLM的具身化(grounded)微调,以及一项精心设计的指令微调任务,可将具身监督信息显式融入传统的问答(QA)格式中。具体而言,基于VideoChat框架,我们提出了面向长视频的MLLM——VideoChat-T。该模型通过引入令牌重排(token shuffling)机制压缩长视频的视觉令牌序列,并设计了时间自适应位置编码(Temporal Adaptive Position Encoding, TAPE),以增强模型对视觉表示中时间动态的感知能力。与此同时,我们构建了TimePro数据集——一个以具身性为核心、涵盖9项任务、包含34.9万条高质量具身标注的综合性指令微调数据集。尤为关键的是,我们提出了一种新型指令微调任务类型:时间具身描述(Temporal Grounded Caption),该任务不仅要求生成详细的视频描述,还需同步预测对应的时序标记(时间戳)。这种显式的时序定位预测能够引导MLLM在生成描述时准确聚焦于对应视觉内容,从而有效降低由大语言模型(LLM)引发的幻觉风险。实验结果表明,TimeSuite为提升短时视频MLLM的长视频理解能力提供了一种成功方案,在Egoschema和VideoMME两个基准测试中分别实现了5.6%和6.8%的性能提升。此外,VideoChat-T在零样本条件下展现出强大的时间具身定位能力,显著优于当前最先进的MLLMs;经过微调后,其性能已达到与传统监督训练专家模型相当的水平。