2 个月前

忠实的多模态解释用于视觉问答

Wu, Jialin ; Mooney, Raymond J.
忠实的多模态解释用于视觉问答
摘要

人工智能系统解释其推理过程的能力对其实用性和可信度至关重要。深度神经网络已经在许多具有挑战性的问题上取得了显著进展,例如视觉问答(VQA)。然而,大多数深度神经网络都是不透明的黑箱模型,解释能力有限。本文提出了一种新颖的方法,用于开发高性能的VQA系统,该系统能够通过集成文本和视觉解释来阐明其答案,这些解释忠实地反映了其底层推理的重要方面,并且捕捉了人类可理解的解释风格。广泛的实验评估表明,与竞争方法相比,该方法在自动评估指标和人工评估指标上均具有优势。