2 个月前

Transformer 模型中的放松注意力机制

Lohrenz, Timo ; Möller, Björn ; Li, Zhengyang ; Fingscheidt, Tim
Transformer 模型中的放松注意力机制
摘要

全注意力机制的变压器架构(transformer architectures)强大的建模能力常常导致过拟合,尤其是在自然语言处理任务中,自回归变压器解码器(autoregressive transformer decoder)会隐式地学习一个内部语言模型,这使得外部语言模型的集成变得复杂。在本文中,我们探讨了一种称为松弛注意力(relaxed attention)的技术,这是一种简单且易于实现的注意力权重平滑方法,对通用变压器架构带来了两方面的改进:首先,在编码器的自注意力层(self-attention layers)中应用松弛注意力可以提供正则化效果;其次,我们证明了它通过放松解码器中的交叉注意力(cross attention),自然地支持外部语言模型的集成,从而抑制了隐式学习到的内部语言模型。我们在多个任务上展示了松弛注意力的优势,并结合最近的基准方法取得了显著的改进。具体而言,在最大的公开唇读数据集LRS3基准测试中,我们将之前的最佳性能从26.90%的词错误率降低到了26.31%;此外,在IWSLT14德语到英语(DE→EN)机器翻译任务中,我们在没有使用外部语言模型且几乎不增加额外模型参数的情况下,达到了37.67的最佳BLEU分数。本文所使用的代码和模型将对外公开。