
摘要
我们对物体的常识性知识包括它们典型的视觉属性;我们知道香蕉通常是黄色或绿色,而不是紫色。文本和图像语料库由于受到报告偏差的影响,对这种世界知识的忠实度各不相同。在本文中,我们研究了单模态(仅语言)模型和多模态(图像和语言)模型在多大程度上能够捕捉到广泛存在的视觉显著属性。为此,我们创建了一个涵盖超过5000个对象的五种属性类型(颜色、形状、材质、大小和视觉共现)的视觉常识测试(ViComTe)数据集。我们通过展示我们的基于实际的颜色数据与Paik等人(2021年)提供的众包颜色判断结果的相关性远高于未基于实际的纯文本数据来验证该数据集的有效性。随后,我们利用该数据集评估了预训练的单模态模型和多模态模型。研究结果表明,多模态模型在重建属性分布方面表现更好,但仍受报告偏差的影响。此外,增加模型规模并不能提高性能,这表明视觉常识的关键在于数据本身。