11 天前
长程竞技场:高效Transformer的基准测试
Yi Tay, Mostafa Dehghani, Samira Abnar, Yikang Shen, Dara Bahri, Philip Pham, Jinfeng Rao, Liu Yang, Sebastian Ruder, Donald Metzler

摘要
Transformer 模型在处理长序列时扩展性较差,主要原因在于其自注意力机制具有二次方复杂度。在最近几个月中,研究者提出了大量高效且快速的 Transformer 变体,以应对这一挑战,这些模型在多数情况下声称其模型质量可与原始 Transformer 相媲美甚至更优。然而,截至目前,该类模型尚缺乏公认的评估标准。此外,由于在多种任务和数据集上存在不一致的基准测试,使得在众多模型之间进行相对质量评估变得极为困难。本文提出了一套系统化且统一的基准测试框架——LRA(Long-Range Arena),专门用于评估模型在长上下文场景下的性能表现。该基准涵盖从 1K 到 16K 个 token 的序列任务,涉及多种数据类型与模态,包括文本、自然语言、合成图像以及需进行相似性、结构化和视觉空间推理的数学表达式。我们系统地在该新提出的基准套件上评估了十种广受认可的长程 Transformer 模型,包括 Reformer、Linformer、Linear Transformer、Sinkhorn Transformer、Performer、Synthesizer、Sparse Transformer 和 Longformer。LRA 为深入理解这类高效 Transformer 模型提供了重要基础,推动了该领域的进一步研究,并引入了一系列具有挑战性的新任务。我们的基准测试代码将公开发布于 https://github.com/google-research/long-range-arena。