HyperAIHyperAI

Command Palette

Search for a command to run...

Winoground:探测视觉语言模型的视觉-语言组合性

Tristan Thrush Ryan Jiang Max Bartolo Amanpreet Singh Adina Williams Douwe Kiela Candace Ross

摘要

我们提出了一项新颖的任务与数据集,用于评估视觉与语言模型在视觉语言组合推理方面的能力,该任务名为 Winoground。给定两张图像和两段描述文字,任务目标是将图像与描述正确匹配——但关键在于,这两段描述文字包含完全相同的词汇,仅顺序不同。该数据集由专业标注人员精心人工构建,并附有丰富的细粒度标签,以辅助对模型性能的深入分析。我们对一系列先进的视觉与语言模型进行了广泛测试,结果出人意料地发现,这些模型的表现几乎无法超越随机猜测水平。显然,当前模型在视觉语言组合推理方面的能力远未达到我们的预期。为此,我们开展了深入的分析,以揭示未来研究可能采取的改进方向,从而弥补现有模型的不足。我们期望 Winoground 能够成为推动领域前沿发展的有效评估基准,促进该方向的持续进步。该数据集已公开,可访问:https://huggingface.co/datasets/facebook/winoground


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供