9 天前
N-Grammer:通过潜在n-gram增强Transformer
Aurko Roy, Rohan Anil, Guangda Lai, Benjamin Lee, Jeffrey Zhao, Shuyuan Zhang, Shibo Wang, Ye Zhang, Shen Wu, Rigel Swavely, Phuong Dao, Christopher Fifty, Zhifeng Chen, Yonghui Wu

摘要
近年来,Transformer模型已成为自然语言处理领域的重要基础模型,随之而来的是对模型规模扩展的广泛关注与投入。然而,大型Transformer语言模型在训练和推理阶段的成本极高,因此亟需开展更多研究以探索更具效率的模型变体。在本工作中,我们受到统计语言建模领域文献的启发,提出了一种简单而有效的Transformer架构改进方法:通过引入由文本序列离散潜在表示构建的n-gram信息,对模型进行增强。我们在C4数据集上评估了所提出的模型(命名为N-Grammer)在语言建模任务上的表现,并在SuperGLUE数据集上测试其在文本分类任务中的性能。实验结果表明,N-Grammer在多个方面优于包括标准Transformer和Primer在内的多种强基准模型。为促进研究的可复现性,我们已将该模型以Jax框架实现并开源。