9 天前

Shortformer：通过更短的输入实现更优的语言建模

Ofir Press, Noah A. Smith, Mike Lewis

摘要

在基于Transformer的语言建模中，增加输入长度一直是推动性能进步的重要因素。我们识别出在某些条件下，使用较短的输入不仅无害，反而可通过两种新方法有效缩短输入长度，从而实现困惑度（perplexity）和效率的双重提升。首先，我们发现：先在较短的子序列上训练模型，再逐步过渡到更长的序列，不仅能显著缩短整体训练时间，而且出人意料地大幅改善了困惑度表现。其次，我们提出了一种提升Transformer中递归方法效率的新策略，该方法允许模型在生成超出Transformer单次处理最大长度的序列时，仍能基于先前已处理的标记进行条件建模。现有方法依赖计算开销较大的相对位置嵌入（relative position embeddings），而我们引入了一种简洁替代方案——将绝对位置嵌入（absolute position embeddings）添加到查询（queries）和键（keys）中，而非词嵌入（word embeddings）中，从而以高效方式获得更优性能。我们进一步表明，这类递归模型同样能从较短输入长度中获益。将上述技术相结合，可在不增加任何参数量的前提下，使训练速度提升1.65倍，显著降低内存消耗，并在WikiText-103数据集上大幅改善困惑度表现。