9 天前

N-Grammer:通过潜在n-gram增强Transformer

Aurko Roy, Rohan Anil, Guangda Lai, Benjamin Lee, Jeffrey Zhao, Shuyuan Zhang, Shibo Wang, Ye Zhang, Shen Wu, Rigel Swavely, Phuong Dao, Christopher Fifty, Zhifeng Chen, Yonghui Wu
N-Grammer:通过潜在n-gram增强Transformer
摘要

近年来,Transformer模型已成为自然语言处理领域的重要基础模型,随之而来的是对模型规模扩展的广泛关注与投入。然而,大型Transformer语言模型在训练和推理阶段的成本极高,因此亟需开展更多研究以探索更具效率的模型变体。在本工作中,我们受到统计语言建模领域文献的启发,提出了一种简单而有效的Transformer架构改进方法:通过引入由文本序列离散潜在表示构建的n-gram信息,对模型进行增强。我们在C4数据集上评估了所提出的模型(命名为N-Grammer)在语言建模任务上的表现,并在SuperGLUE数据集上测试其在文本分类任务中的性能。实验结果表明,N-Grammer在多个方面优于包括标准Transformer和Primer在内的多种强基准模型。为促进研究的可复现性,我们已将该模型以Jax框架实现并开源。

N-Grammer:通过潜在n-gram增强Transformer | 最新论文 | HyperAI超神经