HyperAIHyperAI

Command Palette

Search for a command to run...

Console

无错误的线性注意力机制:从连续时间动力学中获得的精确解

Jingdi Lei Di Zhang Soujanya Poria

Abstract

线性时间注意力机制与状态空间模型(State Space Models, SSMs)有望解决采用Softmax注意力机制的长上下文语言模型中存在的二次计算开销瓶颈。本文提出了一种数值稳定、完全并行且具有广泛适用性的误差自由线性注意力机制(Error-Free Linear Attention, EFLA)。具体而言,我们将在线学习更新过程建模为一个连续时间动力系统,并证明其精确解不仅可求得,而且可在完全并行的前提下以线性时间高效计算。通过利用动力学矩阵的秩-1结构,我们直接推导出精确的闭式解,该解等价于无穷阶龙格-库塔方法(Runge-Kutta method)。该注意力机制在理论上完全避免了误差累积,能够精确捕捉连续动态过程,同时保持线性时间复杂度。通过一系列广泛的实验验证,我们表明,EFLA在噪声环境中展现出稳健的性能,其语言建模困惑度更低,下游任务表现优于DeltaNet,且无需引入额外参数。本工作为构建高保真、可扩展的线性时间注意力模型提供了全新的理论基础。

一句话总结

南洋理工大学和复旦大学的Jingdi Lei、Di Zhang和Soujanya Poria提出了一种无误差线性注意力(EFLA),该方法通过使用无穷阶龙格-库塔法求解线性注意力的连续时间常微分方程(ODE),实现了理论精确且数值稳定的线性时间注意力机制。通过利用动力学矩阵的秩-1结构,EFLA实现了闭式、无误差的更新,具备完全并行性与线性复杂度,在抗噪声能力和下游任务表现上优于DeltaNet,同时消除了基于欧拉法近似的传统方法固有的离散化误差。

主要贡献

  • 现有线性注意力方法由于依赖一阶欧拉离散化连续时间动力学,存在固有的数值不稳定性与截断误差,尽管计算效率高,但在长上下文场景中其准确性和鲁棒性受到限制。

  • 本文将线性注意力重新表述为由一阶常微分方程(ODE)控制的连续时间动力系统,揭示标准方法对应于低阶数值积分方案,无法准确捕捉状态的真实演化过程。

  • 通过利用动力学矩阵的秩-1结构,作者推导出等价于无穷阶龙格-库塔极限的精确闭式解,实现了无误差积分,具备线性时间复杂度、完全并行性,并在性能上持续优于DeltaNet及其他基线方法。

引言

作者利用大语言模型在复杂、长上下文任务(如推理与工具使用)中作为自主代理的日益增长作用,指出标准注意力机制因二次时间复杂度而变得计算不可行。先前的线性注意力方法虽高效,但依赖欧拉积分等低阶数值近似求解底层连续时间动力学,引入截断误差与不稳定性,尤其在长序列或高衰减率下更为显著。这些近似方法存在本质局限,诸如门控或自适应系数等启发式修正仅缓解症状,未能根除根本原因。本文的核心贡献是EFLA,它将线性注意力从原理上重新构建成由一阶ODE控制的连续时间动力系统。通过利用系统的秩-1结构,作者推导出等价于无穷阶龙格-库塔极限的精确闭式解,实现了无误差积分,同时保持线性时间复杂度。该方法不仅确保了在噪声环境下的数值稳定性和鲁棒性,还在各类基准测试中超越现有方法(如DeltaNet),为高保真注意力提供了理论严谨且实际可扩展的基础。

Top Figure

方法

作者采用连续时间动力系统视角,推导出线性注意力的精确无误差解,解决了低阶离散化方案固有的数值不稳定性与误差累积问题。核心思想是将关联记忆状态 St\mathbf{S}_tSt 的在线学习更新建模为一阶常微分方程(ODE)。该ODE定义为 dS(t)dt=AtS(t)+bt\frac{d\mathbf{S}(t)}{dt} = -\mathbf{A}_t\mathbf{S}(t) + \mathbf{b}_tdtdS(t)=AtS(t)+bt,其中动力学矩阵 At=ktkt\mathbf{A}_t = \mathbf{k}_t\mathbf{k}_t^\topAt=ktkt 与驱动项 bt=ktvt\mathbf{b}_t = \mathbf{k}_t\mathbf{v}_t^\topbt=ktvt 均由时间 ttt 的键向量与值向量导出。该公式推广了增量规则更新,后者对应于该ODE的一阶显式欧拉离散化。通过识别动力学矩阵 At\mathbf{A}_tAt 为秩-1矩阵,作者利用其代数性质,计算出ODE的精确解析解。该解等价于龙格-库塔方法族的无穷阶极限,表达式为 St=eβtAtSt1+0βte(βtτ)Atbtdτ\mathbf{S}_t = e^{-\beta_t \mathbf{A}_t} \mathbf{S}_{t-1} + \int_0^{\beta_t} e^{-(\beta_t - \tau)\mathbf{A}_t} \mathbf{b}_t \, d\tauSt=eβtAtSt1+0βte(βtτ)Atbtdτ。由于秩-1结构,矩阵指数 eβtAte^{-\beta_t \mathbf{A}_t}eβtAt 可闭式计算为 I1eβtλtλtAt\mathbf{I} - \frac{1 - e^{-\beta_t \lambda_t}}{\lambda_t} \mathbf{A}_tIλt1eβtλtAt,其中 λt=ktkt\lambda_t = \mathbf{k}_t^\top \mathbf{k}_tλt=ktkt。类似地,积分项简化为 1eβtλtλtbt\frac{1 - e^{-\beta_t \lambda_t}}{\lambda_t} \mathbf{b}_tλt1eβtλtbt。代入这些闭式表达式,即可得到无误差线性注意力(EFLA)机制的最终更新规则。该更新规则在序列长度上保持线性时间复杂度,实现高效计算的同时精确捕捉连续动力学。

[[IMG:|框架图展示了线性注意力的连续时间动力系统建模,显示状态 S(t)\mathbf{S}(t)S(t) 按照 ODE dS(t)dt=AtS(t)+bt\frac{d\mathbf{S}(t)}{dt} = -\mathbf{A}_t\mathbf{S}(t) + \mathbf{b}_tdtdS(t)=AtS(t)+bt 演化。图中突出了从离散增量规则更新到连续时间模型的转变,强调了动力学矩阵 At\mathbf{A}_tAt 与驱动项 bt\mathbf{b}_tbt 的作用。利用 At\mathbf{A}_tAt 的秩-1结构推导出的该ODE精确解,构成了EFLA机制的基础。]]

实验

  • 数值稳定性与鲁棒性验证:在sMNIST任务中,面对像素丢弃、分布外强度缩放和加性高斯噪声,EFLA在收敛速度与鲁棒性上均优于DeltaNet,在严重干扰下仍保持高准确率。EFLA在高输入尺度和大学习率下表现显著更优,验证了其精确饱和机制有效抑制了误差累积与状态爆炸。

  • 语言建模:在Wikitext及零样本推理任务(LAMBADA、PiQA、HellaSwag、WinoGrande、ARC-e、ARC-c、BoolQ、OpenBookQA、SciQ)上,EFLA(340M参数)达到更低困惑度(37.01 vs. 38.09)和更高准确率(LAMBADA上23.9% vs. 22.5%),在BoolQ上实现+7.4%的绝对提升。在1.3B参数规模下,EFLA在16B token时仍保持性能领先,表明其具备更优的长序列保真度与可扩展性。

作者使用340M和1.3B参数模型,在语言建模与推理任务上将EFLA与DeltaNet进行对比,结果见表1。结果显示,EFLA在多数指标上持续优于DeltaNet,在Wikitext和LAMBADA上困惑度更低,在多个推理基准上准确率更高,且模型规模越大,性能差距越明显。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供