16 天前

分段循环Transformer:一种高效的序列到序列模型

Yinghan Long, Sayeed Shafayet Chowdhury, Kaushik Roy
分段循环Transformer:一种高效的序列到序列模型
摘要

Transformer 在语言和视觉等多个领域均展现出卓越的性能。然而,其计算开销随序列长度呈二次增长,这使得其在资源受限的应用场景中难以部署。为应对这一挑战,我们提出将整个序列划分为多个段落,并对各段落分别应用注意力机制。本文提出一种分段循环Transformer(Segmented Recurrent Transformer, SRformer),该模型结合了分段(局部)注意力与循环注意力机制。通过循环注意力在段间聚合信息,有效弥补了因缩小注意力窗口长度所导致的性能损失。SRformer 利用循环累积-放电(Recurrent Accumulate-and-Fire, RAF)神经元固有的记忆能力,实现对键(keys)与值(values)累积乘积的动态更新。分段注意力机制与轻量级 RAF 神经元共同保障了所提模型的高效性。该方法在保持较低计算与内存开销的前提下,赋予模型序列化处理能力。我们将该方法应用于 T5 和 BART 等Transformer模型,在 CNN-DailyMail、XSUM、ArXiv 和 MediaSUM 等摘要生成数据集上进行了测试。实验结果表明,采用不同尺寸的分段输入时,所提模型在 ROUGE-1 指标上比传统分段Transformer提升 6% 至 22%,并优于其他循环Transformer方法。此外,相较于全注意力机制,该模型将交叉注意力的计算复杂度降低了约 40%。

分段循环Transformer:一种高效的序列到序列模型 | 最新论文 | HyperAI超神经