2 个月前
视觉推理中的程序推断与执行
Justin Johnson; Bharath Hariharan; Laurens van der Maaten; Judy Hoffman; Li Fei-Fei; C. Lawrence Zitnick; Ross Girshick

摘要
现有的视觉推理方法试图直接使用黑箱架构将输入映射到输出,而没有显式建模底层的推理过程。因此,这些黑箱模型往往学会利用数据中的偏差,而不是真正进行视觉推理。受模块网络的启发,本文提出了一种视觉推理模型,该模型由一个程序生成器和一个执行引擎组成。程序生成器构建要执行的推理过程的显式表示,而执行引擎则运行生成的程序以产生答案。程序生成器和执行引擎均通过神经网络实现,并使用反向传播和REINFORCE算法进行训练。利用CLEVR视觉推理基准测试,我们展示了我们的模型在多种设置下显著优于强大的基线模型,并且具有更好的泛化能力。