Zhihong Zhang Xiaojian Huang Jin Xu Zhuodong Luo Xinzhi Wang Jiansheng Wei Xuejin Chen

摘要
多模态奖励模型(Multimodal Reward Models, MRMs)在大型视觉语言模型(Large Vision Language Models, LVLMs)的训练、推理与评估过程中发挥着关键作用,主要通过评估生成响应的质量来实现。然而,现有用于评估视频领域MRMs的基准测试在问题数量和多样性方面存在局限,缺乏全面的评估维度,且对不同类型MRMs的评估尚不充分。为弥补这些不足,我们提出了VideoRewardBench,这是首个涵盖视频理解四个核心维度——感知、知识、推理与安全——的综合性基准。通过AI辅助的数据处理流程,我们构建了一个高质量的偏好数据集,包含1,563个标注样本,其中包括1,482个唯一视频和1,559个不同问题,问题数量是此前问题最丰富的基准的15倍。每个样本均由三元组构成:一个视频-文本提示、一个被选中的响应以及一个被拒绝的响应。我们还对28种跨三类(生成式、判别式与半标量式)的多模态奖励模型进行了全面评估。实验结果表明,即使表现最佳的模型GPT-4o,整体准确率也仅达到57.0%;而当前最先进的开源模型Qwen2.5-VL-72B的准确率也仅为53.3%。进一步分析揭示了三个关键发现:(i)采用强化学习(RL)训练的MRMs并不一定在跨模态泛化能力上优于未使用RL训练的模型;(ii)除判别式MRMs外,其他类型MRMs在不同模型规模下均可从推理时的缩放(inference-time scaling)中获益;(iii)输入视频帧数的变化对不同类型MRMs的影响存在差异。我们相信,VideoRewardBench为推动视频领域MRMs的评估与研发提供了一个具有挑战性且极具价值的基准。