17 天前

视觉问答中网格特征的辩护

Huaizu Jiang, Ishan Misra, Marcus Rohrbach, Erik Learned-Miller, Xinlei Chen
视觉问答中网格特征的辩护
摘要

近年来,“自底向上”注意力机制所依赖的基于边界框(或区域)的视觉特征,已逐渐取代传统的基于网格的卷积特征,成为视觉与语言任务(如视觉问答,VQA)中的事实标准。然而,区域特征(例如更优的定位能力)是否真正构成了自底向上注意力机制成功的关键因素,仍不明确。本文重新审视了VQA任务中网格特征的潜力,发现其表现出令人惊讶的优异性能——在保持相同准确率的前提下,推理速度提升超过一个数量级(例如,若以相似方式预训练)。通过大量实验,我们验证了这一发现适用于多种VQA模型、不同数据集,并在图像描述生成等其他任务中也展现出良好的泛化能力(在VQA 2.0 test-std上达到72.71的最新SOTA准确率)。由于网格特征显著简化了模型设计与训练流程,使得端到端训练成为可能,同时支持更灵活的网络架构设计。我们实现了从像素直接到答案的端到端VQA模型训练,并证明在预训练阶段无需依赖任何区域标注即可获得强大性能。我们希望本研究能进一步推动对VQA任务的科学理解,并促进其实际应用。相关代码与特征将公开发布。