11 天前

基于连续动力学模型的Transformer位置编码学习

Xuanqing Liu, Hsiang-Fu Yu, Inderjit Dhillon, Cho-Jui Hsieh
基于连续动力学模型的Transformer位置编码学习
摘要

我们提出了一种新的位置信息编码方法,用于非循环模型(如Transformer模型)。与RNN和LSTM等具有顺序输入诱导偏置的模型不同,非循环模型对位置信息的敏感性较低。其根本原因在于,输入单元之间的位置信息并未被内在编码,即模型具有置换等价性(permutation equivalence)。这一特性也解释了为何现有模型均在输入端配备正弦编码(sinusoidal encoding)或位置嵌入(position embedding)层。然而,这一解决方案存在明显局限:正弦编码是人工设计的,缺乏可学习参数,灵活性不足;而位置嵌入则限制了输入序列的最大长度。因此,设计一种包含可学习参数的位置编码层,使其能够适应不同数据集和模型架构,具有重要意义。同时,我们也希望编码方式具备良好的外推能力,能够适应不同长度的输入序列。在本文提出的解决方案中,我们借鉴了近期提出的神经微分方程(Neural ODE)方法,该方法可被视为ResNet的一种连续、通用的变体,具备建模多种动力系统的能力。我们利用此类动力系统来建模编码结果随位置索引的演化过程,从而有效克服了现有方法在灵活性与序列长度外推方面的局限。我们在多种神经机器翻译与语言理解任务上对所提出的新型位置编码层进行了评估,实验结果表明,其在各项任务中均显著优于现有基线模型,展现出一致且稳定的性能提升。

基于连续动力学模型的Transformer位置编码学习 | 最新论文 | HyperAI超神经