HyperAIHyperAI

Command Palette

Search for a command to run...

Shortformer:通过更短的输入实现更优的语言建模

Ofir Press Noah A. Smith Mike Lewis

摘要

在基于Transformer的语言建模中,增加输入长度一直是推动性能进步的重要因素。我们识别出在某些条件下,使用较短的输入不仅无害,反而可通过两种新方法有效缩短输入长度,从而实现困惑度(perplexity)和效率的双重提升。首先,我们发现:先在较短的子序列上训练模型,再逐步过渡到更长的序列,不仅能显著缩短整体训练时间,而且出人意料地大幅改善了困惑度表现。其次,我们提出了一种提升Transformer中递归方法效率的新策略,该方法允许模型在生成超出Transformer单次处理最大长度的序列时,仍能基于先前已处理的标记进行条件建模。现有方法依赖计算开销较大的相对位置嵌入(relative position embeddings),而我们引入了一种简洁替代方案——将绝对位置嵌入(absolute position embeddings)添加到查询(queries)和键(keys)中,而非词嵌入(word embeddings)中,从而以高效方式获得更优性能。我们进一步表明,这类递归模型同样能从较短输入长度中获益。将上述技术相结合,可在不增加任何参数量的前提下,使训练速度提升1.65倍,显著降低内存消耗,并在WikiText-103数据集上大幅改善困惑度表现。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供