17 天前
通过诱导符号空间实现可解释的视觉推理
Zhonghao Wang, Kai Wang, Mo Yu, Jinjun Xiong, Wen-mei Hwu, Mark Hasegawa-Johnson, Humphrey Shi

摘要
我们研究视觉推理中的概念归纳问题,即从与图像相关的问答对中识别出概念及其层次关系,并通过在所归纳的符号概念空间上进行操作,构建一个具备可解释性的模型。为此,我们首先设计了一种名为面向对象的组合注意力模型(Object-Centric Compositional Attention Model, OCCAM)的新框架,该框架基于对象级别的视觉特征完成视觉推理任务。随后,我们提出一种方法,利用对象视觉特征与问题词汇之间的注意力模式线索,归纳出对象及其关系的概念。最后,通过将OCCAM应用于所归纳的符号概念空间中的对象表示,实现了更高层次的可解释性。该模型设计使得这一过程易于实现:首先预测对象与关系的概念,然后将预测出的概念投影回视觉特征空间,从而确保组合推理模块能够正常运行。在CLEVR和GQA数据集上的实验结果表明:1)我们的OCCAM在无需人工标注功能程序的情况下,达到了新的最先进性能;2)所归纳的概念既准确又充分,因为当对象以视觉特征或所归纳的符号概念空间表示时,OCCAM均能取得相当的性能表现。