8 days ago
像素、模式,但无诗意:像人类一样看世界
Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang

摘要
在多模态大语言模型(MLLMs)中实现类似人类的感知与推理能力,仍然是人工智能领域的一个核心挑战。尽管近期研究主要集中在提升MLLMs的推理能力上,但一个根本性的问题依然存在:多模态大语言模型能否真正像人类一样感知世界?本文将研究重点从推理转向感知。我们并未构建专门针对推理的基准测试,而是引入了“图灵视觉测试”(Turing Eye Test, TET),这是一个以感知为导向的具有挑战性的基准,包含四项诊断性任务,用于评估MLLMs在合成图像上的表现,而这些图像人类可以直观地处理。我们的研究发现,最先进的MLLMs在这些对人类而言非常简单的感知任务上表现出灾难性的失败。无论是上下文学习还是基于语言模型的训练——这两种方法在以往的基准测试中效果显著——都无法提升模型在我们任务上的表现,而对视觉模块进行微调则能实现快速适应,这表明我们的基准测试对视觉模块的泛化能力提出了挑战,而非对语言模型的知识与推理能力——这正是当前MLLMs与人类感知之间的关键差距。在本版本中,我们发布了TET任务的一个代表性子集,未来的工作中我们将引入更多样化的任务和方法,以进一步提升视觉泛化能力。