17 天前

GRIT:基于双视觉特征的更快更优图像描述Transformer

Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani
GRIT:基于双视觉特征的更快更优图像描述Transformer
摘要

当前最先进的图像描述生成方法普遍采用基于区域的特征,因其能够提供对图像内容至关重要的物体级信息,通常通过目标检测器(如Faster R-CNN)提取。然而,这类方法存在若干问题,包括缺乏上下文信息、检测结果不准确的风险以及较高的计算开销。前两个问题可通过引入基于网格的特征加以缓解。然而,如何有效提取并融合这两种视觉特征,目前仍缺乏系统性的解决方案。本文提出一种纯Transformer架构的神经网络模型,命名为GRIT(Grid- and Region-based Image Captioning Transformer),该模型能够高效融合两种视觉特征,从而生成更优的图像描述。GRIT摒弃了以往方法中基于CNN的目标检测器,改用DETR架构,显著提升了计算效率。此外,其全Transformer的统一设计使得整个模型可实现端到端训练。这一创新架构与双模视觉特征的深度融合,带来了显著的性能提升。在多个图像描述生成基准测试中,GRIT在推理准确率和速度方面均优于现有方法。