
摘要
视觉-语言建模已经实现了开放词汇任务,其中可以使用任何文本提示以零样本的方式进行预测查询。现有的开放词汇任务主要集中在对象类别上,而由于缺乏可靠的属性聚焦评估基准,对对象属性的研究相对有限。本文介绍了开放词汇属性检测(OVAD)任务及其相应的OVAD基准。该新任务和基准的目的是探究视觉-语言模型所学习到的对象级别的属性信息。为此,我们创建了一个干净且密集注释的测试集,涵盖了MS COCO数据集中80个对象类别的117个属性类别。该测试集包括正向和负向注释,从而支持开放词汇评估。总体而言,该基准包含140万个注释。作为参考,我们提供了一种开放词汇属性检测的初步基线方法。此外,通过研究几种基础模型的属性检测性能,我们展示了该基准的价值。项目页面:https://ovad-benchmark.github.io