
摘要
人工智能领域的基本挑战之一在于理解复杂模型(如视觉-语言模型(VLMs))中视觉推理的认知机制。这些模型如何将视觉感知与抽象思维相结合,特别是在跨多张图像进行推理或需要细粒度组合理解时?受认知科学的启发,本文引入了一个使用多种视觉推理任务——邦加德问题(BPs)和温诺格伦德问题——来剖析VLMs中感知与推理接口的结构化评估框架。我们提出了三种不同的评估范式,分别对应人类解决问题的策略:直接视觉规则学习(DVRL;整体处理)、演绎规则学习(DRL;规则提取与应用)和成分分析(CA;通过任务无关的文本描述进行解析分解)。这些范式系统地调整了认知负荷并探测了处理阶段。值得注意的是,CA范式即使在单图像架构中也能实现多图像推理评估,并且通过操作文本描述将推理与感知分离。应用这一框架,我们展示了CA范式利用强大的语言模型对丰富且独立生成的描述进行推理,在包括邦加德开放世界、邦加德高阶交互和温诺格伦德在内的具有挑战性的基准测试中取得了新的最佳性能(SOTA)。消融研究表明,当感知挑战得到缓解时,推理能力显著提升,揭示了关键的感知瓶颈。我们的框架提供了一种有价值的诊断工具,并表明通过丰富且任务无关的描述将感知与推理解耦是实现稳健和通用视觉智能的一个有前景的方向。