2 个月前

视觉蕴含:一项用于细粒度图像理解的新任务

Ning Xie; Farley Lai; Derek Doran; Asim Kadav
视觉蕴含:一项用于细粒度图像理解的新任务
摘要

现有的视觉推理数据集,如视觉问答(VQA),通常存在基于问题、图像或答案分布的偏差。最近提出的CLEVR数据集解决了这些限制,并需要进行细粒度推理,但该数据集是合成的,且在整个数据集中对象和句子结构相似。在本文中,我们介绍了一种新的推理任务——视觉蕴含(VE)——由图像-句子对组成,其中前提是由图像定义的,而不是像传统文本蕴含任务那样由自然语言句子定义。训练好的VE模型的目标是预测图像是否在语义上蕴含文本。为了实现这一任务,我们基于斯坦福自然语言推理语料库和Flickr30k数据集构建了一个名为SNLI-VE的数据集。我们评估了各种现有的VQA基线模型,并构建了一个称为可解释视觉蕴含(EVE)系统的模型来解决VE任务。EVE系统达到了高达71%的准确率,并优于其他几种基于VQA的最先进模型。最后,我们通过跨模态注意力可视化展示了EVE系统的可解释性。SNLI-VE数据集已公开发布在https://github.com/necla-ml/SNLI-VE。