HyperAI超神经

摘要

我们提出了一种新的基准测试方法——VALSE（视觉与语言结构化评估），旨在测试通用预训练视觉与语言（V&L）模型在特定语言现象上的视觉-语言对齐能力。VALSE提供了一套六项测试，涵盖了多种语言结构。解决这些测试需要模型将语言现象与视觉模态进行对齐，从而实现比以往更细致的评估。我们使用支持构建有效干扰项的方法构建了VALSE，并报告了对五种广泛使用的V&L模型进行评估的结果。实验表明，当前的模型在处理大多数语言现象时仍存在较大困难。因此，我们期望VALSE能够作为一个重要的基准，从语言学角度衡量未来预训练V&L模型的进步，补充现有的以任务为中心的V&L评估方法。

摘要

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

摘要

用 AI 构建 AI

HyperAI Newsletters

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

摘要

用 AI 构建 AI

HyperAI Newsletters

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VALSE：一个以语言现象为中心的视觉与语言模型任务独立基准测试

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VALSE：一个以语言现象为中心的视觉与语言模型任务独立基准测试

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VALSE：一个以语言现象为中心的视觉与语言模型任务独立基准测试

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

摘要

用 AI 构建 AI

HyperAI Newsletters