17 天前
多流形注意力机制用于视觉Transformer
Dimitrios Konstantinidis, Ilias Papastratis, Kosmas Dimitropoulos, Petros Daras

摘要
近年来,视觉Transformer(Vision Transformers)因其在图像分类、动作识别等多个计算机视觉任务中表现出的先进性能而广受关注。尽管通过采用高度描述性的图像块嵌入(patch embeddings)和分层结构,其性能已得到显著提升,但针对如何利用额外的数据表示来优化Transformer的自注意力机制,相关研究仍较为有限。为解决这一问题,本文提出了一种新型注意力机制——多流形多头注意力(multi-manifold multihead attention),用以替代传统Transformer中的原始自注意力机制。该机制在三个不同的流形空间中对输入数据进行建模,分别为欧几里得空间(Euclidean)、对称正定矩阵空间(Symmetric Positive Definite)以及格拉斯曼流形(Grassmann),从而充分利用输入数据在统计特性与几何结构上的多样性,实现更具描述性的注意力图计算。通过这种方式,所提出的注意力机制能够引导视觉Transformer更关注图像中的关键外观、颜色与纹理特征,从而在多个知名数据集上的实验结果表明,该方法显著提升了图像分类与分割的性能。