11 天前

IllusionVQA:面向视觉语言模型的具有挑战性的光学错觉数据集

Haz Sameen Shahgir, Khondker Salman Sayeed, Abhik Bhattacharjee, Wasi Uddin Ahmad, Yue Dong, Rifat Shahriyar
IllusionVQA:面向视觉语言模型的具有挑战性的光学错觉数据集
摘要

视觉语言模型(Vision Language Models, VLM)的出现,使研究者能够借助自然语言来探究神经网络的视觉理解能力。除了物体分类与检测之外,VLM 还具备视觉理解与常识推理能力。这一进展自然引出了一个关键问题:当图像本身在逻辑上存在不合理性时,VLM 将如何响应?为此,我们提出了 IllusionVQA——一个包含多样且具有挑战性的视觉错觉图像与难以解读场景的大型数据集,用于测试 VLM 在两种不同类型的多项选择型视觉问答(VQA)任务中的表现:视觉理解任务与软定位(soft localization)任务。在理解任务中,表现最佳的 VLM——GPT4V 达到了 62.99% 的准确率(4 次示例学习,4-shot);而在定位任务中,其准确率为 49.7%(4-shot 与思维链推理,Chain-of-Thought)。人类评估结果显示,人类在理解任务和定位任务中的准确率分别高达 91.03% 和 100%。我们进一步发现,在定位任务中,上下文学习(In-Context Learning, ICL)与思维链推理会显著降低 Gemini-Pro 模型的性能。此外,我们还发现 VLM 的上下文学习能力存在潜在缺陷:即使正确答案已作为少样本示例(few-shot example)出现在上下文窗口中,模型仍无法识别出图像中的视觉错觉。这一现象揭示了当前 VLM 在处理非现实或悖论性视觉场景时的深层局限性。

IllusionVQA:面向视觉语言模型的具有挑战性的光学错觉数据集 | 最新论文 | HyperAI超神经