
摘要
作为现代深度学习的核心组件,注意力机制(尤其是自注意力机制)在全局相关性建模中发挥着至关重要的作用。然而,在建模全局上下文时,人工设计的注意力机制是否不可替代?我们的一项令人瞩目的发现是:在编码长距离依赖关系方面,自注意力机制在性能与计算成本上均不如二十年前提出的矩阵分解(Matrix Decomposition, MD)模型。本文将全局上下文建模问题建模为低秩恢复问题,并表明其优化算法可被用于设计全局信息模块。基于此,本文提出了一系列名为“汉堡”(Hamburgers)的新型结构:通过利用优化算法求解矩阵分解,将输入表示分解为子矩阵,并重构出低秩嵌入表示。当对通过矩阵分解传播的梯度进行精心处理时,采用不同矩阵分解方式的“汉堡”结构在性能上可与主流的自注意力机制相媲美。我们在视觉任务中开展了全面实验,这些任务对学习全局上下文信息至关重要,包括语义分割与图像生成,实验结果表明,“汉堡”结构在各项指标上均显著优于自注意力及其变体。