2 个月前
通过文本感知的视觉问答生成提升文本-视觉问答(Text-VQA)性能
Jun Wang; Mingfei Gao; Yuqian Hu; Ramprasaath R. Selvaraju; Chetan Ramaiah; Ran Xu; Joseph F. JaJa; Larry S. Davis

摘要
Text-VQA 的目标是回答需要理解图像中文本线索的问题。尽管现有的 Text-VQA 方法取得了显著进展,但其性能仍受到不足的人工标注问题-答案(QA)对的限制。然而,我们观察到,在现有数据集中,场景文本通常没有得到充分利用——每张图像中只有少量文本参与了标注的 QA 活动。这导致了大量有用信息的浪费。为了解决这一缺陷,我们开发了一种新方法,通过显式利用每张图像中的丰富场景文本生成高质量且多样的 QA 对。具体而言,我们提出了 TAG(Text-Aware Visual Question-Answer Generation),这是一种基于多模态变压器的文本感知视觉问答生成架构,能够生成有意义且准确的 QA 样本。该架构利用未充分挖掘的场景文本信息,并通过将生成的 QA 对与初始训练数据结合,增强 Text-VQA 模型的场景理解能力。在两个知名的 Text-VQA 基准测试(TextVQA 和 ST-VQA)上的广泛实验结果表明,我们提出的 TAG 有效扩大了训练数据量,有助于提高 Text-VQA 性能而无需额外标注工作。此外,我们的模型在预训练时使用额外的大规模数据的情况下仍然优于当前最先进的方法。代码可在 https://github.com/HenryJunW/TAG 获取。