11 天前

LongT5:面向长序列的高效文本到文本Transformer

Mandy Guo, Joshua Ainslie, David Uthus, Santiago Ontanon, Jianmo Ni, Yun-Hsuan Sung, Yinfei Yang
LongT5:面向长序列的高效文本到文本Transformer
摘要

近期研究表明,无论是增加输入长度,还是扩大模型规模,均能提升基于Transformer的神经网络模型的性能。本文提出一种新模型——LongT5,旨在同时探索输入长度与模型规模双重扩展的影响。具体而言,我们将长输入Transformer(ETC)中的注意力机制思想融入可扩展的T5架构,并借鉴摘要预训练方法(PEGASUS)的预训练策略。由此提出一种新型注意力机制,称为瞬态全局注意力(Transient Global, TGlobal),该机制模拟ETC的局部/全局注意力机制,但无需引入额外的辅助输入。实验结果表明,LongT5在多个摘要任务上取得了当前最优性能,并在问答任务上超越了原始T5模型的表现。

LongT5:面向长序列的高效文本到文本Transformer | 最新论文 | HyperAI超神经