HyperAIHyperAI

Command Palette

Search for a command to run...

忠实的多模态解释用于视觉问答

Jialin Wu Raymond J. Mooney

摘要

人工智能系统解释其推理过程的能力对其实用性和可信度至关重要。深度神经网络已经在许多具有挑战性的问题上取得了显著进展,例如视觉问答(VQA)。然而,大多数深度神经网络都是不透明的黑箱模型,解释能力有限。本文提出了一种新颖的方法,用于开发高性能的VQA系统,该系统能够通过集成文本和视觉解释来阐明其答案,这些解释忠实地反映了其底层推理的重要方面,并且捕捉了人类可理解的解释风格。广泛的实验评估表明,与竞争方法相比,该方法在自动评估指标和人工评估指标上均具有优势。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供