
摘要
大型语言模型(如GPT)的成功在很大程度上归因于其高效预测序列中下一个标记(token)的能力。然而,这类模型在预测任意标记时均需付出恒定的计算开销,无论该标记的复杂程度如何,且缺乏迭代优化的能力。本文提出一种新型的循环神经网络(Loop Neural Network),通过在不增加模型参数量的前提下,延长计算时间,实现了更优的性能表现。该方法通过多次回溯输入,利用带有残差连接的模型子集进行迭代循环,逐步优化预测结果。实验结果表明,将我们的循环模型与GPT-2的不同版本进行对比,在语言建模任务中均取得了显著提升,同时保持了相近的参数规模。尤为重要的是,这些性能改进无需依赖额外的训练数据即可实现。