HyperAI超神经

ColorBench:视觉语言模型能否看见并理解多彩世界?一个全面的色彩感知、推理和鲁棒性基准测试

Yijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou
发布日期: 4/21/2025
ColorBench:视觉语言模型能否看见并理解多彩世界?一个全面的色彩感知、推理和鲁棒性基准测试
摘要

颜色在人类感知中发挥着重要作用,通常在视觉推理中提供关键线索。然而,目前尚不清楚视觉-语言模型(VLMs)是否以及如何像人类一样感知、理解和利用颜色。本文介绍了ColorBench,这是一个精心设计的创新基准测试工具,用于评估VLMs在颜色理解方面的能力,包括颜色感知、推理和鲁棒性。通过整理一系列多样化的测试场景,并结合实际应用,ColorBench评估了这些模型如何感知颜色、从基于颜色的线索中推断意义,以及在不同颜色变换下保持一致性能的能力。通过对32个具有不同语言模型和视觉编码器的VLMs进行广泛的评估,本文揭示了一些未被发现的结论:(i)规模定律(较大的模型表现更好)在ColorBench上仍然成立,但语言模型的作用比视觉编码器更为重要。(ii)然而,不同模型之间的性能差距相对较小,表明现有的VLMs在颜色理解方面存在较大的忽视。(iii)链式思维(CoT)推理提高了颜色理解的准确性和鲁棒性,尽管这些任务主要以视觉为中心。(iv)在ColorBench上,VLMs确实利用了颜色线索,但在某些任务中这些线索也可能误导模型。这些发现突显了当前VLMs的关键局限性,并强调了增强颜色理解能力的必要性。我们的ColorBench可以作为推进多模态AI人类水平颜色理解研究的基础工具。