HyperAI超神经
8 days ago

像素、模式,但无诗意:像人类一样看世界

Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang
像素、模式,但无诗意:像人类一样看世界
摘要

在多模态大语言模型(MLLMs)中实现类似人类的感知与推理能力,仍然是人工智能领域的一个核心挑战。尽管近期研究主要集中在提升MLLMs的推理能力上,但一个根本性的问题依然存在:多模态大语言模型能否真正像人类一样感知世界?本文将研究重点从推理转向感知。我们并未构建专门针对推理的基准测试,而是引入了“图灵视觉测试”(Turing Eye Test, TET),这是一个以感知为导向的具有挑战性的基准,包含四项诊断性任务,用于评估MLLMs在合成图像上的表现,而这些图像人类可以直观地处理。我们的研究发现,最先进的MLLMs在这些对人类而言非常简单的感知任务上表现出灾难性的失败。无论是上下文学习还是基于语言模型的训练——这两种方法在以往的基准测试中效果显著——都无法提升模型在我们任务上的表现,而对视觉模块进行微调则能实现快速适应,这表明我们的基准测试对视觉模块的泛化能力提出了挑战,而非对语言模型的知识与推理能力——这正是当前MLLMs与人类感知之间的关键差距。在本版本中,我们发布了TET任务的一个代表性子集,未来的工作中我们将引入更多样化的任务和方法,以进一步提升视觉泛化能力。