理解任意视频中的摄像机运动
Zhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan
发布日期: 4/29/2025

摘要
我们介绍了CameraBench,这是一个大规模的数据集和基准,旨在评估和改进对摄像机运动的理解。CameraBench包含约3,000个多样化的互联网视频,这些视频经过专家通过严格的多阶段质量控制过程进行标注。我们的贡献之一是一个摄像机运动基本单元的分类法(taxonomy of camera motion primitives),该分类法是在与摄影师合作设计的。例如,我们发现某些运动如“跟随”(或跟踪)需要理解场景内容,如移动的主体。我们进行了大规模的人类研究以量化人类标注的表现,结果表明领域专业知识和基于教程的培训可以显著提高准确性。例如,初学者可能会将变焦(内在参数的变化)与向前平移(外在参数的变化)混淆,但可以通过培训学会区分这两种运动。利用CameraBench,我们评估了结构光模型(Structure-from-Motion, SfM)和视频-语言模型(Video-Language Models, VLMs)。研究发现,SfM模型难以捕捉依赖于场景内容的语义基本单元,而VLMs则难以精确估计轨迹的几何基本单元。随后,我们在CameraBench上微调了一个生成式VLM,以实现两者的最佳结合,并展示了其应用,包括增强型动作字幕生成、视频问答以及视频-文本检索。我们希望我们的分类法、基准和教程能够推动未来的研究努力,朝着最终目标——理解任何视频中的摄像机运动迈进。