HyperAIHyperAI

Command Palette

Search for a command to run...

N-Grammer:通过潜在n-gram增强Transformer

摘要

近年来,Transformer模型已成为自然语言处理领域的重要基础模型,随之而来的是对模型规模扩展的广泛关注与投入。然而,大型Transformer语言模型在训练和推理阶段的成本极高,因此亟需开展更多研究以探索更具效率的模型变体。在本工作中,我们受到统计语言建模领域文献的启发,提出了一种简单而有效的Transformer架构改进方法:通过引入由文本序列离散潜在表示构建的n-gram信息,对模型进行增强。我们在C4数据集上评估了所提出的模型(命名为N-Grammer)在语言建模任务上的表现,并在SuperGLUE数据集上测试其在文本分类任务中的性能。实验结果表明,N-Grammer在多个方面优于包括标准Transformer和Primer在内的多种强基准模型。为促进研究的可复现性,我们已将该模型以Jax框架实现并开源。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供