11 天前

高效扩展Transformer模型以实现长输入摘要

Jason Phang, Yao Zhao, Peter J. Liu
高效扩展Transformer模型以实现长输入摘要
摘要

尽管大规模预训练的Transformer模型在自然语言处理任务中表现出色,但处理长序列输入仍是重大挑战。其中一项典型任务是长输入摘要生成,即输入长度超过大多数预训练模型的最大上下文窗口。通过一系列广泛的实验,我们系统研究了哪些模型架构改进与预训练范式能够最高效地将预训练Transformer适配于长输入摘要任务。研究发现,采用分段式、块内局部注意力机制并引入全局编码器标记(global encoder tokens)的Transformer架构,在性能与效率之间取得了良好平衡;此外,在长序列上增加一个额外的预训练阶段,能显著提升下游摘要任务的表现。基于上述发现,我们提出了PEGASUS-X,这是对PEGASUS模型的扩展,通过引入针对长输入的额外预训练,使其能够处理最长达16K标记(tokens)的输入。PEGASUS-X在长输入摘要任务上取得了与更大模型相当的优异性能,同时仅增加少量参数,且无需模型并行即可训练。

高效扩展Transformer模型以实现长输入摘要 | 最新论文 | HyperAI超神经