6 个月前

摘要

近年来，“自底向上”注意力机制所依赖的基于边界框（或区域）的视觉特征，已逐渐取代传统的基于网格的卷积特征，成为视觉与语言任务（如视觉问答，VQA）中的事实标准。然而，区域特征（例如更优的定位能力）是否真正构成了自底向上注意力机制成功的关键因素，仍不明确。本文重新审视了VQA任务中网格特征的潜力，发现其表现出令人惊讶的优异性能——在保持相同准确率的前提下，推理速度提升超过一个数量级（例如，若以相似方式预训练）。通过大量实验，我们验证了这一发现适用于多种VQA模型、不同数据集，并在图像描述生成等其他任务中也展现出良好的泛化能力（在VQA 2.0 test-std上达到72.71的最新SOTA准确率）。由于网格特征显著简化了模型设计与训练流程，使得端到端训练成为可能，同时支持更灵活的网络架构设计。我们实现了从像素直接到答案的端到端VQA模型训练，并证明在预训练阶段无需依赖任何区域标注即可获得强大性能。我们希望本研究能进一步推动对VQA任务的科学理解，并促进其实际应用。相关代码与特征将公开发布。

源 PDF