6 个月前

摘要

解释性视觉问答（Explanatory Visual Question Answering, EVQA）是一项近期提出的多模态推理任务，要求在回答视觉问题的同时，生成用于解释推理过程的多模态说明。与传统视觉问答（Visual Question Answering, VQA）仅关注答案生成不同，EVQA旨在通过提供用户友好的解释，提升推理模型的可解释性与可信度。然而，现有的EVQA方法通常将答案预测与解释生成分别进行，忽略了二者之间的因果关联；同时，这些方法也未能充分建模问题词汇、视觉区域与解释文本标记之间的复杂交互关系。为解决上述问题，本文提出一种变分因果推理网络（Variational Causal Inference Network, VCIN），该模型能够建立预测答案与解释之间的因果关联，并捕捉跨模态间的复杂关系，从而生成更具逻辑性的解释。具体而言，首先利用视觉-语言预训练模型提取图像特征与问题特征；其次，设计一种多模态解释门控Transformer（Multimodal Explanation Gating Transformer），用于构建跨模态关联并生成合理解释；最后，引入变分因果推理机制，以构建目标因果结构并实现答案预测。大量实验证明，所提出的VCIN在多个基准数据集上显著优于当前最先进的EVQA方法，展现出更强的推理能力与解释生成性能。

源 PDF 查看代码