7 天前

感知测试:多模态视频模型的诊断性基准

Viorica Pătrăucean, Lucas Smaira, Ankush Gupta, Adrià Recasens Continente, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Joseph Heyward, Mateusz Malinowski, Yi Yang, Carl Doersch, Tatiana Matejovicova, Yury Sulsky, Antoine Miech, Alex Frechette, Hanna Klimczak, Raphael Koster, Junlin Zhang, Stephanie Winkler, Yusuf Aytar, Simon Osindero, Dima Damen, Andrew Zisserman, João Carreira
感知测试:多模态视频模型的诊断性基准
摘要

我们提出了一种新型多模态视频基准测试——“感知测试”(Perception Test),用于评估预训练多模态模型(如 Flamingo、SeViLA 或 GPT-4)的感知与推理能力。相较于现有主要聚焦于计算任务(如分类、检测或跟踪)的基准,感知测试将重点放在跨视频、音频与文本模态的多种感知能力(记忆、抽象、物理理解、语义理解)以及多种推理类型(描述性、解释性、预测性、反事实推理)上,旨在提供一种全面且高效的评估工具。该基准测试在零样本(zero-shot)、少样本(few-shot)或有限微调的设定下,评估预训练模型的迁移能力。为此,感知测试构建了包含11,600段真实世界视频的数据集,平均时长约23秒,内容涵盖具有感知趣味性的场景,由全球约100名参与者拍摄录制。所有视频均进行了密集标注,包含六类标签:多项选择题与基于视频的问答、物体与关键点轨迹、时间动作片段及声音片段,支持语言与非语言双重评估。该基准的微调集与验证集已公开发布(采用 CC-BY 许可协议),同时提供一个包含保留测试集的挑战服务器,供模型性能评估。与当前最先进的视频问答模型相比,人类基准表现显著更优(人类准确率91.4% vs 模型最高46.2%),表明在多模态视频理解方面仍存在巨大的提升空间。数据集、基线代码及挑战服务器已开放获取,详见:https://github.com/deepmind/perception_test

感知测试:多模态视频模型的诊断性基准 | 最新论文 | HyperAI超神经