DAPE 位置编码方法

DAPE 全称为 Data-Adaptive Positional Encoding,是一种新的位置编码方法,由香港中文大学的郑传阳等人提出的,该研究团队还包括来自新加坡国立大学、诺亚实验室、香港大学和香港浸会大学的研究人员。这项研究被 NeurIPS 2024 接收,论文成果为「DAPE: Data-Adaptive Positional Encoding for Length Extrapolation

DAPE 通过动态调整位置编码来适应输入上下文和学习到的固定先验,从而显著提升模型在处理长文本时的性能。它结合了语义信息和位置信息,使得位置编码能够根据输入数据进行自适应调整,克服了传统位置编码方法(如绝对位置编码 APE 和相对位置编码 RPE)的局限性。

DAPE 的核心思想是使用一个两层神经网络来参数化位置编码,使其能够根据输入上下文动态调整。这种架构允许位置编码既具有自适应性又依赖于输入数据。在自然语言任务中,DAPE 的设计旨在捕捉 token 之间复杂的关系,通过引入语义和位置信息的结合,DAPE 极大地提升了 Transformer 模型在长文本处理上的表现。