7 个月前

摘要

视觉问答需要对图像进行高层次的推理，这是机器系统遵循复杂指令所需的基本能力。近年来，模块化网络已被证明是执行视觉推理任务的有效框架。尽管模块化网络最初设计时具有一定的模型透明度，但它们在复杂的视觉推理基准测试中的表现不尽如人意。目前最先进的方法未能提供有效的机制来理解推理过程。本文旨在缩小可解释模型与最先进视觉推理方法之间的性能差距。我们提出了一组视觉推理基元，这些基元组合后形成一个能够在显式可解释的方式下执行复杂推理任务的模型。这些基元输出的高度保真性和可解释性使得诊断最终模型的优势和劣势成为可能。重要的是，我们展示了这些基元具有很高的性能，在CLEVR数据集上达到了99.1%的最先进准确率。此外，我们还展示了当提供包含新颖对象属性的小量数据时，我们的模型能够有效地学习泛化的表示。通过使用CoGenT泛化任务，我们在当前最先进水平上提高了超过20个百分点。注释：- 视觉问答（Visual Question Answering）- 模块化网络（Modular Networks）- 可解释模型（Interpretable Models）- CLEVR数据集（CLEVR Dataset）- CoGenT泛化任务（CoGenT Generalization Task）

源 PDF