5 天前
COREVQA:一种众包观察与推理蕴含的视觉问答基准
Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, Andrew Lin, Hannah You, Charles Duong, et al

摘要
近年来,为评估视觉-语言模型(VLMs)在视觉问答(VQA)任务中的表现,已涌现出大量基准测试集和数据集,相关模型的准确率也取得了显著提升。然而,这些基准测试极少考察模型在视觉蕴含推理方面的能力,例如根据图像内容判断某个假设是否成立(即接受或反驳某一命题)。为解决这一问题,我们提出了COREVQA(Crowd Observations and Reasoning Entailment)基准,该基准包含5608对图像与人工合成的真/假陈述对,图像均源自CrowdHuman数据集,旨在针对复杂拥挤场景下的图像激发模型的视觉蕴含推理能力。实验结果表明,即使是最先进的VLMs,其准确率也低于80%,而其他模型的表现则显著更差(准确率范围为39.98%至69.95%)。这一显著的性能差距揭示了当前VLMs在处理拥挤场景中特定类型图像-问题对时,仍存在关键性的推理能力局限。