17 天前

MUSE:用于序列到序列学习的并行多尺度注意力机制

Guangxiang Zhao, Xu Sun, Jingjing Xu, Zhiyuan Zhang, Liangchen Luo
MUSE:用于序列到序列学习的并行多尺度注意力机制
摘要

在序列到序列学习中,自注意力机制已被证明具有高度有效性,并在众多任务中取得了显著性能提升。然而,自注意力机制本身也存在一定的缺陷。尽管其能够建模极长的依赖关系,但在深层网络中,注意力往往会过度集中于单个词元(token),导致局部信息利用不足,难以有效表征长序列。针对这一问题,本文探索了序列数据上的并行多尺度表征学习方法,旨在同时捕捉语言的长程与短程结构特征。为此,我们提出了并行多尺度注意力机制(Parallel MUlti-Scale attEntion,简称 MUSE)及其简化版本 MUSE-simple。MUSE-simple 体现了并行多尺度序列表征学习的核心思想:通过自注意力机制与逐点变换(pointwise transformation),在不同尺度上并行编码序列信息。MUSE 在 MUSE-simple 的基础上进一步拓展,探索将卷积操作与自注意力机制相结合,以从更丰富的尺度层次中学习序列表征。我们在机器翻译任务上进行了实验,结果表明,所提出的方法在性能上显著优于标准 Transformer 模型,尤其在处理长序列时优势更为明显。更重要的是,尽管该方法在概念上较为简洁,但其实际成功依赖于精细的设计考量,其中多尺度注意力机制必须建立在统一的语义空间之上。在标准设置下,该模型在三大主流机器翻译任务上均取得了显著性能提升,超越了此前所有已知模型。此外,由于其固有的并行特性,MUSE 具备加速推理的潜力。相关代码将公开发布于:https://github.com/lancopku/MUSE