2 个月前

VALSE:一个以语言现象为中心的视觉与语言模型任务独立基准测试

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt
VALSE:一个以语言现象为中心的视觉与语言模型任务独立基准测试
摘要

我们提出了一种新的基准测试方法——VALSE(视觉与语言结构化评估),旨在测试通用预训练视觉与语言(V&L)模型在特定语言现象上的视觉-语言对齐能力。VALSE提供了一套六项测试,涵盖了多种语言结构。解决这些测试需要模型将语言现象与视觉模态进行对齐,从而实现比以往更细致的评估。我们使用支持构建有效干扰项的方法构建了VALSE,并报告了对五种广泛使用的V&L模型进行评估的结果。实验表明,当前的模型在处理大多数语言现象时仍存在较大困难。因此,我们期望VALSE能够作为一个重要的基准,从语言学角度衡量未来预训练V&L模型的进步,补充现有的以任务为中心的V&L评估方法。