17 天前

GRIT：基于双视觉特征的更快更优图像描述Transformer

Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani

摘要

当前最先进的图像描述生成方法普遍采用基于区域的特征，因其能够提供对图像内容至关重要的物体级信息，通常通过目标检测器（如Faster R-CNN）提取。然而，这类方法存在若干问题，包括缺乏上下文信息、检测结果不准确的风险以及较高的计算开销。前两个问题可通过引入基于网格的特征加以缓解。然而，如何有效提取并融合这两种视觉特征，目前仍缺乏系统性的解决方案。本文提出一种纯Transformer架构的神经网络模型，命名为GRIT（Grid- and Region-based Image Captioning Transformer），该模型能够高效融合两种视觉特征，从而生成更优的图像描述。GRIT摒弃了以往方法中基于CNN的目标检测器，改用DETR架构，显著提升了计算效率。此外，其全Transformer的统一设计使得整个模型可实现端到端训练。这一创新架构与双模视觉特征的深度融合，带来了显著的性能提升。在多个图像描述生成基准测试中，GRIT在推理准确率和速度方面均优于现有方法。