
摘要
本文研究了通过主动提出基于图像的问题并随后回答这些问题来持续发现图像内容的问题。关键组件包括一个视觉问题生成(Visual Question Generation, VQG)模块和一个视觉问题回答(Visual Question Answering, VQA)模块,其中使用了循环神经网络(Recurrent Neural Networks, RNN)和卷积神经网络(Convolutional Neural Network, CNN)。给定一个包含图像、问题及其答案的数据集,两个模块同时进行训练,不同之处在于VQG以图像作为输入,生成相应的问题作为输出,而VQA则以图像和问题作为输入,生成相应的答案作为输出。我们使用亚马逊机械土耳其(Amazon Mechanical Turk)对自对话过程进行了主观评估,结果显示所提出方法的有效性。