6 个月前

摘要

本文重新审视了基于知识的视觉问答（Knowledge-based Visual Question Answering, KB-VQA）中的视觉表征问题，并证明：更有效地利用区域信息能够显著提升模型性能。尽管在传统视觉问答（VQA）任务中，视觉表征已得到广泛研究，但在基于知识的VQA中，这一方向仍鲜有深入探索，尽管两类任务在本质上具有共通之处——即均依赖视觉输入来回答问题。具体而言，我们观察到当前多数先进KB-VQA方法存在以下两个关键问题：1）视觉特征通常从整张图像或通过滑动窗口方式提取以检索知识，而忽略了对象区域内部及区域之间的关键关系；2）在最终的答案生成模型中，视觉特征未能得到充分有效的利用，这一现象在一定程度上违背直觉。基于上述观察，本文提出一种新的KB-VQA方法——REVIVE，旨在将对象区域的显式信息不仅应用于知识检索阶段，同时也融入答案生成模型之中。其核心动机在于：对象区域及其内在关系对于基于知识的视觉问答至关重要。我们在标准的OK-VQA数据集上进行了大量实验，取得了新的最先进性能，准确率达到58.0%，相较于此前最优方法大幅提升（+3.6%）。此外，我们还进行了详尽的消融分析，验证了区域信息在KB-VQA不同模块中的必要性。相关代码已公开，地址为：https://github.com/yzleroy/REVIVE。

源 PDF