18 天前
XCiT:交叉协方差图像Transformer
Alaaeldin El-Nouby, Hugo Touvron, Mathilde Caron, Piotr Bojanowski, Matthijs Douze, Armand Joulin, Ivan Laptev, Natalia Neverova, Gabriel Synnaeve, Jakob Verbeek, Hervé Jegou

摘要
在自然语言处理领域取得成功之后,Transformer模型近年来在计算机视觉任务中也展现出巨大潜力。Transformer所依赖的自注意力机制能够实现所有标记(即词元或图像块)之间的全局交互,从而突破卷积操作局限于局部交互的限制,为图像数据建模提供了更高的灵活性。然而,这种灵活性也带来了时间和内存上的二次方复杂度,限制了其在长序列和高分辨率图像中的应用。为此,我们提出了一种“转置”形式的自注意力机制,该机制不再在标记之间进行交互,而是作用于特征通道维度,其交互关系基于键(keys)与查询(queries)之间的交叉协方差矩阵。由此产生的交叉协方差注意力(Cross-Covariance Attention, XCA)在标记数量上具有线性复杂度,能够高效处理高分辨率图像。基于XCA构建的交叉协方差图像Transformer(XCiT)融合了传统Transformer的高精度特性与卷积架构的可扩展性优势。我们在多个视觉基准任务上验证了XCiT的有效性与通用性,包括在ImageNet-1k上的图像分类与自监督特征学习、在COCO数据集上的目标检测与实例分割,以及在ADE20k数据集上的语义分割任务,均取得了优异的性能表现。