17 天前

QLEVR:用于量化语言与基础视觉推理的诊断数据集

Zechen Li, Anders Søgaard
QLEVR:用于量化语言与基础视觉推理的诊断数据集
摘要

合成数据集已被成功用于探测视觉问答数据集在推理能力方面的表现。例如,CLEVR(Johnson et al., 2017)测试了多种视觉推理能力,其问题聚焦于形状、颜色和大小的比较、数值推理以及存在性判断。本文提出了一种偏差极小、具有诊断性质的视觉问答数据集——QLEVR,该数据集超越了存在性与数值量化范畴,重点关注更复杂的量化表达及其组合,例如询问图像中是否存在超过两个红色球体,且每个红色球体的尺寸均小于至少三个蓝色球体。本文详细介绍了该数据集的构建方法,并对当前最先进的视觉问答模型进行了首次评估,结果表明,QLEVR对现有模型构成了严峻挑战。代码与数据集已开源,可通过 https://github.com/zechenli03/QLEVR 获取。