6 天前
视频-LMM后训练:基于大型多模态模型的视频推理深度探究
Yunlong Tang, Jing Bi, Pinxin Liu, Zhenyu Pan, Zhangyun Tan, Qianxiang Shen, Jiani Liu, Hang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Yuhe Nie, Jia-Xing Zhong, Bozheng Li, Daiqing Qi, Ziyun Zeng, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu

摘要
视频理解是计算机视觉领域最具挑战性的前沿方向,要求模型能够推理复杂的时空关系、长时依赖性以及多模态证据。近年来,视频大规模多模态模型(Video-Large Multimodal Models, Video-LMMs)的出现,通过将视觉编码器与强大的基于解码器的语言模型相结合,在视频理解任务中展现出卓越的能力。然而,将这些模型从基础感知系统转化为复杂推理引擎的关键阶段——后训练(post-training)——在现有文献中仍处于零散、缺乏系统梳理的状态。本综述首次对Video-LMMs的后训练方法进行了全面深入的分析,涵盖三大核心支柱:基于思维链(chain-of-thought)的监督微调(Supervised Fine-Tuning, SFT)、基于可验证目标的强化学习(Reinforcement Learning, RL),以及通过增强推理计算实现的测试时扩展(Test-Time Scaling, TTS)。我们构建了一个结构化的分类体系,清晰阐明了这些技术的角色定位、相互关联及其在视频任务中的特定适配策略,重点应对诸如时间定位、时空定位、长视频处理效率以及多模态证据融合等独特挑战。通过对代表性方法的系统性分析,我们总结出关键的设计原则、核心洞见与评估规范,同时指出了当前在奖励函数设计、可扩展性以及成本-性能优化方面存在的关键开放性问题。此外,我们还整理了若干核心基准测试、数据集与评估指标,以支持对后训练效果的严谨评估。本综述旨在为研究人员与实践者提供一个统一的框架,推动Video-LMM能力的持续提升。更多补充资源与最新动态请访问:https://github.com/yunlong10/Awesome-Video-LMM-Post-Training