7 天前

少样本多模态视觉问答解释

{Changsheng Xu, Shengsheng Qian, Dizhan Xue}
摘要

可解释人工智能(XAI)的核心目标之一,是构建能够对现实世界数据进行推理并提供可解释性说明的智能系统,以支持可信的决策过程。近期研究已认识到,为用户提供友好且可验证的解释,对于构建值得信赖的视觉问答(Visual Question Answering, VQA)系统至关重要。本文从数据与方法两个维度出发,致力于推动可解释视觉问答的发展。首先,我们提出一个新的标准多模态解释数据集——标准多模态解释数据集(Standard Multimodal Explanation, SME),以及一项新的少样本多模态解释任务——面向视觉问答的少样本多模态解释任务(Few-Shot Multimodal Explanation for VQA, FS-MEVQA)。该任务旨在仅使用少量训练样本的情况下,生成解答视觉问题所依赖的底层推理过程的多模态解释。SME数据集共包含1,028,230个样本,涵盖问题、图像、答案及多模态解释,可有效支持传统多模态解释视觉问答(MEVQA)与FS-MEVQA的双重研究。据我们所知,这是首个基于标准英语并辅以额外视觉定位标记(visual grounding tokens)的大型多模态联合语言-视觉解释数据集。其次,我们提出一种无需训练的多模态解释代理方法——多模态解释代理(Multimodal Explaining Agent, MEAgent)。该方法基于具备多模态开放世界能力的大型语言模型(LLM)代理,通过调用开放世界工具实现对视觉问题的答案推断与多模态解释生成。MEAgent仅需N(=16)个训练样本即可学习多模态解释能力,并利用其开放世界推理能力,在测试样本上完成少样本多模态解释视觉问答任务。在SME数据集上,通过语言质量指标、视觉检测指标以及视觉归因指标进行的全面实验评估表明,所提方法在少样本多模态解释视觉问答任务中具有显著优势。本文相关代码与数据已公开,访问地址为:https://github.com/LivXue/FS-MEVQA。

少样本多模态视觉问答解释 | 最新论文 | HyperAI超神经