
摘要
具有记忆和注意力机制的神经网络架构展示了问答任务所需的某些推理能力。其中一种架构,动态记忆网络(Dynamic Memory Network, DMN),在多种语言任务中取得了高精度。然而,尚未证明该架构在训练过程中未标记支持事实的情况下是否能在问答任务中取得优异成绩,也未证明其能否应用于其他模态,如图像。基于对DMN的分析,我们提出了对其记忆模块和输入模块的几项改进。结合这些改进,我们引入了一种新的图像输入模块,以便能够回答视觉问题。我们的新模型DMN+在视觉问答数据集和\babi-10k文本问答数据集上均取得了最先进的成果,且无需支持事实监督。