2 个月前
WinoGAViL:用于挑战视觉-语言模型的游戏化关联基准测试
Yonatan Bitton; Nitzan Bitton Guetta; Ron Yosef; Yuval Elovici; Mohit Bansal; Gabriel Stanovsky; Roy Schwartz

摘要
尽管视觉-语言模型在诸如视觉问答等任务上表现出色,但在基本的人类常识推理技能方面仍面临挑战。在这项工作中,我们引入了WinoGAViL:一种在线的视觉-语言关联游戏(例如,狼人与满月之间的关联),用作动态评估基准。该游戏灵感来源于流行的纸牌游戏《代号名字》(Codenames),其中一名间谍大师提供与多个视觉候选对象相关的文本提示,另一名玩家则尝试识别这些对象。人类玩家因创建对竞争对手AI模型具有挑战性但仍可被其他人类玩家解决的关联而获得奖励。我们利用该游戏收集了3.5万个实例,发现这些实例对人类来说直观易懂(Jaccard指数超过90%),但对最先进的AI模型来说却颇具挑战性,其中表现最好的模型(ViLT)仅达到52%的准确率,主要在提示具有明显视觉特征的情况下成功。我们的分析以及从玩家处收集的反馈表明,所收集的关联需要多样的推理技能,包括一般知识、常识、抽象能力等。我们发布了数据集、代码和互动游戏,允许未来进行更多的数据收集,以用于开发具有更好关联能力的模型。