9 天前

Longformer:长文档Transformer

Iz Beltagy, Matthew E. Peters, Arman Cohan
Longformer:长文档Transformer
摘要

基于Transformer的模型由于其自注意力机制的计算复杂度随序列长度呈二次方增长,难以处理长序列。为解决这一限制,我们提出了Longformer,其注意力机制的计算复杂度与序列长度呈线性关系,从而能够高效处理包含数千个标记甚至更长的文档。Longformer的注意力机制可直接替代标准自注意力机制,结合了局部窗口注意力与任务驱动的全局注意力。在延续先前长序列Transformer研究的基础上,我们在字符级语言建模任务上对Longformer进行了评估,在text8和enwik8数据集上取得了当前最优性能。与多数先前工作不同,我们还对Longformer进行了预训练,并在多种下游任务上进行微调。实验结果表明,预训练的Longformer在长文档任务中持续优于RoBERTa,并在WikiHop和TriviaQA任务上刷新了当前最优性能记录。最后,我们提出了Longformer-Encoder-Decoder(LED)——一种适用于长文档生成式序列到序列任务的Longformer变体,并在arXiv摘要生成数据集上验证了其有效性。