16 days ago
ShotBench:视觉-语言模型中的专家级电影理解
Hongbo Liu; Jingwen He; Yi Jin; Dian Zheng; Yuhao Dong; Fan Zhang; Ziqi Huang; Yinan He; Yangguang Li; Weichao Chen; Yu Qiao; Wanli Ouyang; Shengjie Zhao; Ziwei Liu

摘要
电影摄影是电影的基本视觉语言,对于传达叙事、情感和美学质量至关重要。尽管最近的视觉-语言模型(VLMs)展示了强大的通用视觉理解能力,但它们在理解单个镜头中嵌入的细腻电影语法方面的表现仍 largely 未被探索且缺乏稳健评估。这一关键差距限制了细粒度视觉理解和AI辅助视频生成的精确性。为了解决这一问题,我们引入了 ShotBench,这是一个专门设计用于电影语言理解的全面基准测试。它包含超过3.5万个由专家标注的图像和视频片段问答对,精心挑选自200多部备受赞誉(主要是奥斯卡提名)的影片,并涵盖了八个关键的电影摄影维度。我们在ShotBench上对24个领先的VLMs进行了评估,结果揭示了它们的重大局限性:即使是表现最好的模型,其平均准确率也低于60%,尤其是在处理细粒度视觉线索和复杂空间推理方面存在困难。为了推动该领域的进步,我们构建了 ShotQA,一个大规模的多模态数据集,包含约7万个电影问答对。利用ShotQA,我们通过监督微调和组相对策略优化开发了 ShotVL。ShotVL在ShotBench上的表现显著优于所有现有的开源和专有模型,确立了新的 最先进 水平。我们开放源代码并共享我们的模型、数据和代码,以促进AI驱动的电影理解和生成这一重要领域的快速发展。