17 天前

X-Linear Attention Networks 用于图像描述

Yingwei Pan, Ting Yao, Yehao Li, Tao Mei
X-Linear Attention Networks 用于图像描述
摘要

近年来,细粒度视觉识别与视觉问答任务的进展中,双线性池化(Bilinear Pooling)技术得到了广泛应用,该方法能够有效建模多模态输入之间的二阶交互关系。然而,目前尚缺乏将此类高阶交互建模与注意力机制相结合用于图像字幕生成的实证支持。本文提出一种统一的注意力模块——X-Linear注意力块,该模块充分运用双线性池化机制,可选择性地利用视觉信息或实现多模态推理。在技术实现上,X-Linear注意力块同时利用空间维度与通道维度的双线性注意力分布,以捕捉输入单模态或跨模态特征间的二阶交互。通过堆叠多个X-Linear注意力块,并在模块中以无参数方式引入指数线性单元(ELU),可自然地建模更高阶乃至无穷阶的特征交互关系。此外,本文提出X-Linear注意力网络(X-LAN),首次将X-Linear注意力块引入图像字幕模型的图像编码器与句子解码器中,以充分挖掘模态内与模态间更高阶的交互信息。在COCO基准测试上的实验结果表明,所提出的X-LAN在COCO Karpathy测试集上取得了当前最优的CIDEr得分132.0%。当进一步将X-Linear注意力块嵌入Transformer架构后,CIDEr得分提升至132.8%。相关源代码已公开,地址为:\url{https://github.com/Panda-Peter/image-captioning}。