HyperAI超神经

Transformer 模型中的旋转位置编码（Rotary Position Embedding, RoPE）存在固有局限，导致其在长序列外推（length extrapolation）能力上表现较弱。本文将带有位置编码的注意力图重新诠释为一个含噪特征图，并提出一种无需训练的去噪位置编码方法——Denoising Positional Encoding（DoPE）。该方法基于截断矩阵熵（truncated matrix entropy）来检测特征图中的异常频率分量，从而识别出对模型外推性能产生负面影响的噪声频段。利用特征图的噪声特性，DoPE 进一步通过无参数的高斯分布对特征图进行重参数化，实现对长序列上下文的鲁棒外推。理论上，本方法揭示了注意力“下沉”（attention sink）现象的成因，并阐明其与截断矩阵熵之间的内在联系。在“针尖对 haystack”（needle-in-a-haystack）以及多示例上下文学习（many-shot in-context learning）等任务上的实验结果表明，DoPE 显著提升了在扩展上下文（最长达 64K token）下的检索准确率与推理稳定性。结果验证了对位置编码进行去噪处理，能够有效缓解注意力下沉问题，恢复注意力分布的平衡性。该方法提供了一种简单而高效的解决方案，显著提升模型的长度泛化能力。项目主页：https://The-physical-picture-of-LLMs.github.io

DoPE：去噪旋转位置嵌入

Jing Xiong Liyang Fan Hui Shen Zunhai Su Min Yang Lingpeng Kong Ngai Wong

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

DoPE：去噪旋转位置嵌入

Jing Xiong Liyang Fan Hui Shen Zunhai Su Min Yang Lingpeng Kong Ngai Wong

摘要

用 AI 构建 AI

Hyper Newsletters