Command Palette

Search for a command to run...

9 天前

DoPE:去噪旋转位置嵌入

Jing Xiong Liyang Fan Hui Shen Zunhai Su Min Yang Lingpeng Kong Ngai Wong

DoPE:去噪旋转位置嵌入

摘要

Transformer 模型中的旋转位置编码(Rotary Position Embedding, RoPE)存在固有局限,导致其在长序列外推(length extrapolation)能力上表现较弱。本文将带有位置编码的注意力图重新诠释为一个含噪特征图,并提出一种无需训练的去噪位置编码方法——Denoising Positional Encoding(DoPE)。该方法基于截断矩阵熵(truncated matrix entropy)来检测特征图中的异常频率分量,从而识别出对模型外推性能产生负面影响的噪声频段。利用特征图的噪声特性,DoPE 进一步通过无参数的高斯分布对特征图进行重参数化,实现对长序列上下文的鲁棒外推。理论上,本方法揭示了注意力“下沉”(attention sink)现象的成因,并阐明其与截断矩阵熵之间的内在联系。在“针尖对 haystack”(needle-in-a-haystack)以及多示例上下文学习(many-shot in-context learning)等任务上的实验结果表明,DoPE 显著提升了在扩展上下文(最长达 64K token)下的检索准确率与推理稳定性。结果验证了对位置编码进行去噪处理,能够有效缓解注意力下沉问题,恢复注意力分布的平衡性。该方法提供了一种简单而高效的解决方案,显著提升模型的长度泛化能力。项目主页:https://The-physical-picture-of-LLMs.github.io

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供