视觉可解释的子任务推理用于视觉问答
Yu Cheng, Arushi Goel, Hakan Bilen
发布日期: 5/15/2025

摘要
回答诸如“哪种红色家具可以用来坐?”这样的复杂视觉问题需要多步骤推理,包括物体识别、属性过滤和关系理解。近期的研究通过将任务分解为子任务程序,提高了多模态大语言模型(MLLMs)的可解释性,但这些方法由于对目标数据的适应性较差,导致计算成本高昂且准确性较低。为了解决这一问题,我们引入了VISTAR(视觉可解释子任务感知推理模型),这是一种以子任务为导向的训练框架,通过在MLLMs中生成文本和视觉解释来增强其可解释性和推理能力。与依赖外部模型不同,VISTAR对MLLMs进行微调,使其能够生成结构化的思维子任务理由(逐步推理序列)。在两个基准测试上的实验表明,VISTAR在保持可解释性的同时,持续提高了推理的准确性。我们的代码和数据集将在https://github.com/ChengJade/VISTAR上提供。