17 天前

重新思考与改进视觉Transformer中的相对位置编码

Kan Wu, Houwen Peng, Minghao Chen, Jianlong Fu, Hongyang Chao
重新思考与改进视觉Transformer中的相对位置编码
摘要

相对位置编码(Relative Position Encoding, RPE)在Transformer模型中对于捕捉输入标记序列的顺序信息具有重要意义,其在自然语言处理领域已得到广泛验证并展现出良好效果。然而,在计算机视觉领域,RPE的有效性尚未得到充分研究,甚至存在争议,例如:相对位置编码是否能够与绝对位置编码达到同等性能?为澄清这一问题,我们首先系统回顾了现有的相对位置编码方法,并分析其在视觉Transformer中的优缺点。在此基础上,我们提出了一种专为二维图像设计的新式相对位置编码方法,称为图像相对位置编码(image RPE, iRPE)。所提出的iRPE方法不仅考虑了方向性相对距离的建模,还深入探讨了查询(query)与相对位置嵌入在自注意力机制中的交互关系。所提iRPE方法结构简洁、计算轻量,可无缝集成至标准Transformer模块中。实验结果表明,仅通过引入所提出的编码方式,DeiT和DETR模型在ImageNet和COCO数据集上分别实现了高达1.5%(Top-1准确率)和1.3%(mAP)的稳定性能提升,且无需调整任何额外超参数(如学习率、权重衰减等)。消融实验与深入分析还揭示了一些出人意料的发现,其中部分结果甚至与以往认知相悖。相关代码与模型已开源,详见:https://github.com/microsoft/Cream/tree/main/iRPE。