11 天前

注意力机制是否优于矩阵分解？

Zhengyang Geng, Meng-Hao Guo, Hongxu Chen, Xia Li, Ke Wei, Zhouchen Lin

摘要

作为现代深度学习的核心组件，注意力机制（尤其是自注意力机制）在全局相关性建模中发挥着至关重要的作用。然而，在建模全局上下文时，人工设计的注意力机制是否不可替代？我们的一项令人瞩目的发现是：在编码长距离依赖关系方面，自注意力机制在性能与计算成本上均不如二十年前提出的矩阵分解（Matrix Decomposition, MD）模型。本文将全局上下文建模问题建模为低秩恢复问题，并表明其优化算法可被用于设计全局信息模块。基于此，本文提出了一系列名为“汉堡”（Hamburgers）的新型结构：通过利用优化算法求解矩阵分解，将输入表示分解为子矩阵，并重构出低秩嵌入表示。当对通过矩阵分解传播的梯度进行精心处理时，采用不同矩阵分解方式的“汉堡”结构在性能上可与主流的自注意力机制相媲美。我们在视觉任务中开展了全面实验，这些任务对学习全局上下文信息至关重要，包括语义分割与图像生成，实验结果表明，“汉堡”结构在各项指标上均显著优于自注意力及其变体。