2 个月前

视觉对话

Abhishek Das; Satwik Kottur; Khushi Gupta; Avi Singh; Deshraj Yadav; José M. F. Moura; Devi Parikh; Dhruv Batra
视觉对话
摘要

我们介绍了视觉对话(Visual Dialog)这一任务,该任务要求人工智能代理能够以自然、对话式的语言与人类就视觉内容进行有意义的对话。具体而言,给定一张图像、一段对话历史以及一个关于该图像的问题,代理需要将问题与图像相关联,从历史中推断上下文,并准确回答问题。视觉对话在一定程度上脱离了特定的下游任务,可以作为机器智能的一般测试手段;同时,它又足够基于视觉,使得可以对单个响应进行客观评估并衡量基准进展。我们开发了一种新颖的两人聊天数据收集协议,以构建大规模的视觉对话数据集(VisDial)。VisDial v0.9 已经发布,包含来自 COCO 的约 12 万张图像上的 1 段包含 10 个问答对的对话,总计约 120 万个对话问答对。我们为视觉对话引入了一系列神经编码器-解码器模型,包括三种编码器——晚期融合(Late Fusion)、层次递归编码器(Hierarchical Recurrent Encoder)和记忆网络(Memory Network),以及两种解码器(生成式和判别式),这些模型在多个复杂的基线模型上表现出色。我们提出了一种基于检索的视觉对话评估协议,在该协议中,人工智能代理被要求对一组候选答案进行排序,并根据人类回应的平均倒数排名等指标进行评估。通过人类研究,我们量化了机器和人类在视觉对话任务上的性能差距。综合所有这些工作,我们展示了首个“视觉聊天机器人”!我们的数据集、代码、训练模型和视觉聊天机器人均可在 https://visualdialog.org 获取。

视觉对话 | 最新论文 | HyperAI超神经