17 天前

通过诱导符号空间实现可解释的视觉推理

Zhonghao Wang, Kai Wang, Mo Yu, Jinjun Xiong, Wen-mei Hwu, Mark Hasegawa-Johnson, Humphrey Shi

摘要

我们研究视觉推理中的概念归纳问题，即从与图像相关的问答对中识别出概念及其层次关系，并通过在所归纳的符号概念空间上进行操作，构建一个具备可解释性的模型。为此，我们首先设计了一种名为面向对象的组合注意力模型（Object-Centric Compositional Attention Model, OCCAM）的新框架，该框架基于对象级别的视觉特征完成视觉推理任务。随后，我们提出一种方法，利用对象视觉特征与问题词汇之间的注意力模式线索，归纳出对象及其关系的概念。最后，通过将OCCAM应用于所归纳的符号概念空间中的对象表示，实现了更高层次的可解释性。该模型设计使得这一过程易于实现：首先预测对象与关系的概念，然后将预测出的概念投影回视觉特征空间，从而确保组合推理模块能够正常运行。在CLEVR和GQA数据集上的实验结果表明：1）我们的OCCAM在无需人工标注功能程序的情况下，达到了新的最先进性能；2）所归纳的概念既准确又充分，因为当对象以视觉特征或所归纳的符号概念空间表示时，OCCAM均能取得相当的性能表现。