1 个月前

使用轻量级和动态卷积减少注意力机制的计算开销

Felix Wu; Angela Fan; Alexei Baevski; Yann N. Dauphin; Michael Auli

摘要

自注意力机制是构建语言和图像生成模型的一种有效方法。它通过将每个上下文元素与当前时间步进行比较来确定其重要性。在本文中，我们展示了一个非常轻量级的卷积可以与已报道的最佳自注意力结果相媲美。接下来，我们引入了动态卷积，该方法比自注意力机制更为简单且高效。我们仅根据当前时间步预测不同的卷积核，以确定上下文元素的重要性。这种方法所需的计算量随输入长度线性增长，而自注意力机制则呈二次增长。在大规模机器翻译、语言建模和抽象摘要生成实验中，动态卷积的表现优于强大的自注意力模型。在WMT'14英德测试集上，动态卷积达到了29.7 BLEU的新纪录。