11 天前

Winoground:探测视觉语言模型的视觉-语言组合性

Tristan Thrush, Ryan Jiang, Max Bartolo, Amanpreet Singh, Adina Williams, Douwe Kiela, Candace Ross
Winoground:探测视觉语言模型的视觉-语言组合性
摘要

我们提出了一项新颖的任务与数据集,用于评估视觉与语言模型在视觉语言组合推理方面的能力,该任务名为 Winoground。给定两张图像和两段描述文字,任务目标是将图像与描述正确匹配——但关键在于,这两段描述文字包含完全相同的词汇,仅顺序不同。该数据集由专业标注人员精心人工构建,并附有丰富的细粒度标签,以辅助对模型性能的深入分析。我们对一系列先进的视觉与语言模型进行了广泛测试,结果出人意料地发现,这些模型的表现几乎无法超越随机猜测水平。显然,当前模型在视觉语言组合推理方面的能力远未达到我们的预期。为此,我们开展了深入的分析,以揭示未来研究可能采取的改进方向,从而弥补现有模型的不足。我们期望 Winoground 能够成为推动领域前沿发展的有效评估基准,促进该方向的持续进步。该数据集已公开,可访问:https://huggingface.co/datasets/facebook/winoground。

Winoground:探测视觉语言模型的视觉-语言组合性 | 最新论文 | HyperAI超神经