2 个月前

HallusionBench:大型视觉-语言模型中纠缠语言幻觉和视觉错觉的高级诊断工具套件

Tianrui Guan; Fuxiao Liu; Xiyang Wu; Ruiqi Xian; Zongxia Li; Xiaoyu Liu; Xijun Wang; Lichang Chen; Furong Huang; Yaser Yacoob; Dinesh Manocha; Tianyi Zhou
HallusionBench:大型视觉-语言模型中纠缠语言幻觉和视觉错觉的高级诊断工具套件
摘要

我们介绍了HallusionBench,这是一个全面的基准测试工具,旨在评估图像上下文推理能力。该基准测试对先进的大型视觉-语言模型(LVLMs),如GPT-4V(Vision)、Gemini Pro Vision、Claude 3和LLaVA-1.5等,提出了重大挑战,强调对视觉数据的细微理解和解释。HallusionBench包含346张图像及其配对的1129个问题,所有这些问题均由人类专家精心设计。我们引入了一种新颖的视觉问题结构,旨在建立对照组。这种结构使我们能够对模型的回答倾向、逻辑一致性以及各种失败模式进行定量分析。在我们的HallusionBench评估中,我们测试了15种不同的模型,其中最先进的GPT-4V达到了31.42%的问题对准确率。值得注意的是,其他所有被评估的模型准确率均低于16%。此外,我们的分析不仅揭示了观察到的失败模式,包括语言幻觉和视觉错觉,还加深了对这些陷阱的理解。我们在HallusionBench中的综合案例研究阐明了LVLMs在幻觉和错觉方面面临的挑战。基于这些洞察,我们建议了一些未来改进的潜在途径。该基准测试和代码库可在https://github.com/tianyi-lab/HallusionBench获取。