16 天前
CLEVR-X:面向自然语言解释的视觉推理数据集
Leonard Salewski, A. Sophia Koepke, Hendrik P. A. Lensch, Zeynep Akata

摘要
在视觉问答(Visual Question Answering, VQA)任务中提供解释,是机器学习领域的一个基本挑战。为了深入理解生成自然语言解释的过程,我们提出了大规模的CLEVR-X数据集,该数据集在原有CLEVR数据集的基础上扩展了自然语言解释。对于CLEVR数据集中每一对图像-问题,CLEVR-X均包含多个结构化的文本解释,这些解释源自原始场景图(scene graphs)。由于构建方式的设定,CLEVR-X中的解释均正确,并准确描述了解答特定问题所必需的推理过程与视觉信息。我们通过用户研究验证了所提出的数据集中真实标注(ground-truth)解释的完整性与相关性。我们基于两个先进的框架,在CLEVR-X数据集上展示了生成自然语言解释的基线结果。此外,我们对不同问题类型与答案类型下的解释生成质量进行了详细分析。同时,我们还研究了使用不同数量的真实解释对自然语言生成(Natural Language Generation, NLG)指标收敛性的影响。CLEVR-X数据集已公开发布,访问地址为:\url{https://explainableml.github.io/CLEVR-X/}。