原生稀疏注意力 Native Sparse Attention
原生稀疏注意力(Native Sparse Attention,简称 NSA)是由 DeepSeek 联合北京大学、华盛顿大学于 2025 年 2 月 27 日提出的一种原生可训练稀疏注意力机制,旨在解决长序列建模中的计算瓶颈问题。该方法结合了算法创新与硬件优化,实现了高效的长上下文建模。相关论文成果为「Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention」,该论文已获 ACL 25 最佳论文奖。
在 27B 参数的 Transformer 主干模型上进行预训练,NSA 在通用基准、长上下文任务和推理任务上,性能与全连接注意力模型相当或更优。在处理 64k 长度序列时,NSA 在解码、前向传播和反向传播阶段均实现了显著的加速。