
摘要
基于Transformer的预训练语言模型(LM)在自然语言理解任务中已广泛应用,但由于其复杂度呈二次增长,难以处理长序列文本,如故事、科学论文和长文档。尽管已有大量高效的Transformer变体被提出,但这些方法通常依赖于定制化实现,需从头开始进行昂贵的预训练。本文提出SLED(Sliding-Encoder and Decoder)——一种用于处理长序列的简单高效方法,该方法复用并充分利用经过充分验证的短文本预训练语言模型。具体而言,我们将输入序列划分为重叠的块,使用短文本预训练语言模型的编码器分别对每个块进行编码,并利用预训练的解码器在块之间融合信息(即“解码器融合”)。通过受控实验,我们验证了SLED在长文本理解任务中具有可行性。我们在SCROLLS这一基准数据集上评估了该方法,该数据集涵盖七项跨多种语言理解任务的数据集。实验结果表明,SLED在性能上可与规模高达其50倍、且需专门且昂贵预训练过程的专用模型相媲美。