
摘要
注意力机制在自然语言处理(NLP)中已变得无处不在。近年来,尤其是Transformer架构,通过多层、多头注意力学习到了强大的上下文感知词表示。多个注意力头可以学习不同类型的词关系。然而,使用标准的softmax注意力时,所有注意力头都是密集的,会为所有上下文词分配非零权重。在这项工作中,我们引入了自适应稀疏Transformer,在这种模型中,注意力头具有灵活且依赖于上下文的稀疏模式。这一稀疏性是通过将softmax替换为$\alpha$-entmax实现的:$\alpha$-entmax是softmax的一个可微分泛化版本,允许低得分词获得精确的零权重。此外,我们推导出一种自动学习$\alpha$参数的方法——该参数控制$\alpha$-entmax的形状和稀疏度——从而使注意力头能够在集中或分散的行为之间进行选择。与使用softmax的Transformer相比,我们的自适应稀疏Transformer在机器翻译数据集上提高了可解释性和头部多样性。对我们的方法进行定量和定性分析的结果表明,不同层中的头部学会了不同的稀疏偏好,并且其注意力分布比softmax Transformer更为多样化。此外,在不牺牲准确性的情况下,注意力头中的稀疏性有助于揭示不同的头部专业化特性。