无错误的线性注意力机制:从连续时间动力学中获得的精确解
无错误的线性注意力机制:从连续时间动力学中获得的精确解
Jingdi Lei Di Zhang Soujanya Poria
Abstract
线性时间注意力机制与状态空间模型(State Space Models, SSMs)有望解决采用Softmax注意力机制的长上下文语言模型中存在的二次计算开销瓶颈。本文提出了一种数值稳定、完全并行且具有广泛适用性的误差自由线性注意力机制(Error-Free Linear Attention, EFLA)。具体而言,我们将在线学习更新过程建模为一个连续时间动力系统,并证明其精确解不仅可求得,而且可在完全并行的前提下以线性时间高效计算。通过利用动力学矩阵的秩-1结构,我们直接推导出精确的闭式解,该解等价于无穷阶龙格-库塔方法(Runge-Kutta method)。该注意力机制在理论上完全避免了误差累积,能够精确捕捉连续动态过程,同时保持线性时间复杂度。通过一系列广泛的实验验证,我们表明,EFLA在噪声环境中展现出稳健的性能,其语言建模困惑度更低,下游任务表现优于DeltaNet,且无需引入额外参数。本工作为构建高保真、可扩展的线性时间注意力模型提供了全新的理论基础。
一句话总结
南洋理工大学和复旦大学的Jingdi Lei、Di Zhang和Soujanya Poria提出了一种无误差线性注意力(EFLA),该方法通过使用无穷阶龙格-库塔法求解线性注意力的连续时间常微分方程(ODE),实现了理论精确且数值稳定的线性时间注意力机制。通过利用动力学矩阵的秩-1结构,EFLA实现了闭式、无误差的更新,具备完全并行性与线性复杂度,在抗噪声能力和下游任务表现上优于DeltaNet,同时消除了基于欧拉法近似的传统方法固有的离散化误差。
主要贡献
-
现有线性注意力方法由于依赖一阶欧拉离散化连续时间动力学,存在固有的数值不稳定性与截断误差,尽管计算效率高,但在长上下文场景中其准确性和鲁棒性受到限制。
-
本文将线性注意力重新表述为由一阶常微分方程(ODE)控制的连续时间动力系统,揭示标准方法对应于低阶数值积分方案,无法准确捕捉状态的真实演化过程。
-
通过利用动力学矩阵的秩-1结构,作者推导出等价于无穷阶龙格-库塔极限的精确闭式解,实现了无误差积分,具备线性时间复杂度、完全并行性,并在性能上持续优于DeltaNet及其他基线方法。
引言
作者利用大语言模型在复杂、长上下文任务(如推理与工具使用)中作为自主代理的日益增长作用,指出标准注意力机制因二次时间复杂度而变得计算不可行。先前的线性注意力方法虽高效,但依赖欧拉积分等低阶数值近似求解底层连续时间动力学,引入截断误差与不稳定性,尤其在长序列或高衰减率下更为显著。这些近似方法存在本质局限,诸如门控或自适应系数等启发式修正仅缓解症状,未能根除根本原因。本文的核心贡献是EFLA,它将线性注意力从原理上重新构建成由一阶ODE控制的连续时间动力系统。通过利用系统的秩-1结构,作者推导出等价于无穷阶龙格-库塔极限的精确闭式解,实现了无误差积分,同时保持线性时间复杂度。该方法不仅确保了在噪声环境下的数值稳定性和鲁棒性,还在各类基准测试中超越现有方法(如DeltaNet),为高保真注意力提供了理论严谨且实际可扩展的基础。

方法
作者采用连续时间动力系统视角,推导出线性注意力的精确无误差解,解决了低阶离散化方案固有的数值不稳定性与误差累积问题。核心思想是将关联记忆状态 St 的在线学习更新建模为一阶常微分方程(ODE)。该ODE定义为 dtdS(t)=−AtS(t)+bt,其中动力学矩阵 At=ktkt⊤ 与驱动项 bt=ktvt⊤ 均由时间 t 的键向量与值向量导出。该公式推广了增量规则更新,后者对应于该ODE的一阶显式欧拉离散化。通过识别动力学矩阵 At 为秩-1矩阵,作者利用其代数性质,计算出ODE的精确解析解。该解等价于龙格-库塔方法族的无穷阶极限,表达式为 St=e−βtAtSt−1+∫0βte−(βt−τ)Atbtdτ。由于秩-1结构,矩阵指数 e−βtAt 可闭式计算为 I−λt1−e−βtλtAt,其中 λt=kt⊤kt。类似地,积分项简化为 λt1−e−βtλtbt。代入这些闭式表达式,即可得到无误差线性注意力(EFLA)机制的最终更新规则。该更新规则在序列长度上保持线性时间复杂度,实现高效计算的同时精确捕捉连续动力学。
[[IMG:|框架图展示了线性注意力的连续时间动力系统建模,显示状态 S(t) 按照 ODE dtdS(t)=−AtS(t)+bt 演化。图中突出了从离散增量规则更新到连续时间模型的转变,强调了动力学矩阵 At 与驱动项 bt 的作用。利用 At 的秩-1结构推导出的该ODE精确解,构成了EFLA机制的基础。]]
实验
-
数值稳定性与鲁棒性验证:在sMNIST任务中,面对像素丢弃、分布外强度缩放和加性高斯噪声,EFLA在收敛速度与鲁棒性上均优于DeltaNet,在严重干扰下仍保持高准确率。EFLA在高输入尺度和大学习率下表现显著更优,验证了其精确饱和机制有效抑制了误差累积与状态爆炸。
-
语言建模:在Wikitext及零样本推理任务(LAMBADA、PiQA、HellaSwag、WinoGrande、ARC-e、ARC-c、BoolQ、OpenBookQA、SciQ)上,EFLA(340M参数)达到更低困惑度(37.01 vs. 38.09)和更高准确率(LAMBADA上23.9% vs. 22.5%),在BoolQ上实现+7.4%的绝对提升。在1.3B参数规模下,EFLA在16B token时仍保持性能领先,表明其具备更优的长序列保真度与可扩展性。
作者使用340M和1.3B参数模型,在语言建模与推理任务上将EFLA与DeltaNet进行对比,结果见表1。结果显示,EFLA在多数指标上持续优于DeltaNet,在Wikitext和LAMBADA上困惑度更低,在多个推理基准上准确率更高,且模型规模越大,性能差距越明显。

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.