HyperAIHyperAI

Command Palette

Search for a command to run...

VALSE:一个以语言现象为中心的视觉与语言模型任务独立基准测试

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

摘要

我们提出了一种新的基准测试方法——VALSE(视觉与语言结构化评估),旨在测试通用预训练视觉与语言(V&L)模型在特定语言现象上的视觉-语言对齐能力。VALSE提供了一套六项测试,涵盖了多种语言结构。解决这些测试需要模型将语言现象与视觉模态进行对齐,从而实现比以往更细致的评估。我们使用支持构建有效干扰项的方法构建了VALSE,并报告了对五种广泛使用的V&L模型进行评估的结果。实验表明,当前的模型在处理大多数语言现象时仍存在较大困难。因此,我们期望VALSE能够作为一个重要的基准,从语言学角度衡量未来预训练V&L模型的进步,补充现有的以任务为中心的V&L评估方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供