HyperAI超神经

摘要

我们提出了一项新颖的任务与数据集，用于评估视觉与语言模型在视觉语言组合推理方面的能力，该任务名为 Winoground。给定两张图像和两段描述文字，任务目标是将图像与描述正确匹配——但关键在于，这两段描述文字包含完全相同的词汇，仅顺序不同。该数据集由专业标注人员精心人工构建，并附有丰富的细粒度标签，以辅助对模型性能的深入分析。我们对一系列先进的视觉与语言模型进行了广泛测试，结果出人意料地发现，这些模型的表现几乎无法超越随机猜测水平。显然，当前模型在视觉语言组合推理方面的能力远未达到我们的预期。为此，我们开展了深入的分析，以揭示未来研究可能采取的改进方向，从而弥补现有模型的不足。我们期望 Winoground 能够成为推动领域前沿发展的有效评估基准，促进该方向的持续进步。该数据集已公开，可访问：https://huggingface.co/datasets/facebook/winoground。

摘要

Tristan Thrush Ryan Jiang Max Bartolo Amanpreet Singh Adina Williams Douwe Kiela Candace Ross

摘要

用 AI 构建 AI

HyperAI Newsletters

Tristan Thrush Ryan Jiang Max Bartolo Amanpreet Singh Adina Williams Douwe Kiela Candace Ross

摘要

用 AI 构建 AI

HyperAI Newsletters

Tristan Thrush Ryan Jiang Max Bartolo Amanpreet Singh Adina Williams Douwe Kiela Candace Ross

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Winoground：探测视觉语言模型的视觉-语言组合性

Tristan Thrush Ryan Jiang Max Bartolo Amanpreet Singh Adina Williams Douwe Kiela Candace Ross

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Winoground：探测视觉语言模型的视觉-语言组合性

Tristan Thrush Ryan Jiang Max Bartolo Amanpreet Singh Adina Williams Douwe Kiela Candace Ross

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Winoground：探测视觉语言模型的视觉-语言组合性

Tristan Thrush Ryan Jiang Max Bartolo Amanpreet Singh Adina Williams Douwe Kiela Candace Ross

摘要

用 AI 构建 AI

HyperAI Newsletters