Command Palette
Search for a command to run...
Jing Xiong Liyang Fan Hui Shen Zunhai Su Min Yang Lingpeng Kong Ngai Wong

摘要
Transformer 模型中的旋转位置编码(Rotary Position Embedding, RoPE)存在固有局限,导致其在长序列外推(length extrapolation)能力上表现较弱。本文将带有位置编码的注意力图重新诠释为一个含噪特征图,并提出一种无需训练的去噪位置编码方法——Denoising Positional Encoding(DoPE)。该方法基于截断矩阵熵(truncated matrix entropy)来检测特征图中的异常频率分量,从而识别出对模型外推性能产生负面影响的噪声频段。利用特征图的噪声特性,DoPE 进一步通过无参数的高斯分布对特征图进行重参数化,实现对长序列上下文的鲁棒外推。理论上,本方法揭示了注意力“下沉”(attention sink)现象的成因,并阐明其与截断矩阵熵之间的内在联系。在“针尖对 haystack”(needle-in-a-haystack)以及多示例上下文学习(many-shot in-context learning)等任务上的实验结果表明,DoPE 显著提升了在扩展上下文(最长达 64K token)下的检索准确率与推理稳定性。结果验证了对位置编码进行去噪处理,能够有效缓解注意力下沉问题,恢复注意力分布的平衡性。该方法提供了一种简单而高效的解决方案,显著提升模型的长度泛化能力。项目主页:https://The-physical-picture-of-LLMs.github.io