7 天前

变分因果推断网络用于解释性视觉问答

{Changsheng Xu, Shengsheng Qian, Dizhan Xue}
变分因果推断网络用于解释性视觉问答
摘要

解释性视觉问答(Explanatory Visual Question Answering, EVQA)是一项近期提出的多模态推理任务,要求在回答视觉问题的同时,生成用于解释推理过程的多模态说明。与传统视觉问答(Visual Question Answering, VQA)仅关注答案生成不同,EVQA旨在通过提供用户友好的解释,提升推理模型的可解释性与可信度。然而,现有的EVQA方法通常将答案预测与解释生成分别进行,忽略了二者之间的因果关联;同时,这些方法也未能充分建模问题词汇、视觉区域与解释文本标记之间的复杂交互关系。为解决上述问题,本文提出一种变分因果推理网络(Variational Causal Inference Network, VCIN),该模型能够建立预测答案与解释之间的因果关联,并捕捉跨模态间的复杂关系,从而生成更具逻辑性的解释。具体而言,首先利用视觉-语言预训练模型提取图像特征与问题特征;其次,设计一种多模态解释门控Transformer(Multimodal Explanation Gating Transformer),用于构建跨模态关联并生成合理解释;最后,引入变分因果推理机制,以构建目标因果结构并实现答案预测。大量实验证明,所提出的VCIN在多个基准数据集上显著优于当前最先进的EVQA方法,展现出更强的推理能力与解释生成性能。

变分因果推断网络用于解释性视觉问答 | 最新论文 | HyperAI超神经