HyperAI超神经
22 days ago

时间盲区:为什么视频-语言模型无法看到人类能看到的?

Ujjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny
时间盲区:为什么视频-语言模型无法看到人类能看到的?
摘要

近期,视觉-语言模型(VLMs)在理解视频中的时空关系方面取得了令人印象深刻的进展。然而,当空间信息被遮挡时,这些模型难以捕捉纯粹的时间模式。我们引入了SpookyBench,这是一个基准测试,其中信息仅编码在类似噪声的帧的时间序列中,模拟了从生物信号到隐秘通信等自然现象。有趣的是,人类可以以超过98%的准确率识别这些序列中的形状、文本和模式,而最先进的VLMs却达到了0%的准确率。这一性能差距突显了一个关键限制:过度依赖帧级别的空间特征以及无法从时间线索中提取意义。此外,在低空间信噪比(SNR)的数据集中进行训练时,模型的时间理解能力比人类感知能力下降得更快,特别是在需要精细时间推理的任务中。克服这一限制将需要新的架构或训练范式,以解耦空间依赖性和时间处理。我们的系统分析表明,这一问题在不同规模和架构的模型中普遍存在。我们发布了SpookyBench以促进时间模式识别的研究,并缩小人类与机器在视频理解方面的差距。数据集和代码已在我们的项目网站上提供:https://timeblindness.github.io/。