8 个月前

摘要

人工智能系统解释其推理过程的能力对其实用性和可信度至关重要。深度神经网络已经在许多具有挑战性的问题上取得了显著进展，例如视觉问答（VQA）。然而，大多数深度神经网络都是不透明的黑箱模型，解释能力有限。本文提出了一种新颖的方法，用于开发高性能的VQA系统，该系统能够通过集成文本和视觉解释来阐明其答案，这些解释忠实地反映了其底层推理的重要方面，并且捕捉了人类可理解的解释风格。广泛的实验评估表明，与竞争方法相比，该方法在自动评估指标和人工评估指标上均具有优势。

源 PDF