
摘要
本研究笔记结合了两种最近在语言模型领域取得显著进展的方法:Transformer 和动态评估。Transformer 通过堆叠自注意力层来捕捉序列数据中的长距离依赖关系。动态评估则根据近期的序列历史对模型进行拟合,使其能够为重复出现的序列模式分配更高的概率。通过将动态评估应用于 Transformer-XL 模型,我们在 enwik8 数据集上的表现从 0.99 提升至 0.94 bit/char,在 text8 数据集上的表现从 1.08 提升至 1.04 bit/char,以及在 WikiText-103 数据集上的困惑度从 18.3 降低到 16.4。