9 天前

Shortformer:通过更短的输入实现更优的语言建模

Ofir Press, Noah A. Smith, Mike Lewis
Shortformer:通过更短的输入实现更优的语言建模
摘要

在基于Transformer的语言建模中,增加输入长度一直是推动性能进步的重要因素。我们识别出在某些条件下,使用较短的输入不仅无害,反而可通过两种新方法有效缩短输入长度,从而实现困惑度(perplexity)和效率的双重提升。首先,我们发现:先在较短的子序列上训练模型,再逐步过渡到更长的序列,不仅能显著缩短整体训练时间,而且出人意料地大幅改善了困惑度表现。其次,我们提出了一种提升Transformer中递归方法效率的新策略,该方法允许模型在生成超出Transformer单次处理最大长度的序列时,仍能基于先前已处理的标记进行条件建模。现有方法依赖计算开销较大的相对位置嵌入(relative position embeddings),而我们引入了一种简洁替代方案——将绝对位置嵌入(absolute position embeddings)添加到查询(queries)和键(keys)中,而非词嵌入(word embeddings)中,从而以高效方式获得更优性能。我们进一步表明,这类递归模型同样能从较短输入长度中获益。将上述技术相结合,可在不增加任何参数量的前提下,使训练速度提升1.65倍,显著降低内存消耗,并在WikiText-103数据集上大幅改善困惑度表现。