
摘要
我们介绍了神经状态机(Neural State Machine),旨在弥合神经网络和符号主义在人工智能领域的差距,并整合它们的互补优势以完成视觉推理任务。对于给定的图像,我们首先预测一个表示其底层语义的概率图,该图作为结构化的世界模型。然后,我们在该图上进行序列推理,通过迭代遍历其节点来回答给定的问题或得出新的推论。与大多数设计为与原始感官数据紧密交互的神经架构不同,我们的模型在抽象的潜在空间中运行,将视觉和语言模态都转换为基于语义概念的表示形式,从而实现更高的透明度和模块化。我们在VQA-CP和GQA两个最新的涉及组合性、多步推理和多样推理技能的视觉问答数据集上评估了我们的模型,在这两个数据集上均取得了最先进的结果。我们还提供了进一步的实验,展示了模型在多个维度上的强大泛化能力,包括概念的新组合、答案分布的变化以及未见过的语言结构,证明了我们方法的质量和有效性。