Command Palette

Search for a command to run...

原生稀疏注意力 Native Sparse Attention

日期

3 个月前

原生稀疏注意力(Native Sparse Attention,简称 NSA)是由 DeepSeek 联合北京大学、华盛顿大学于 2025 年 2 月 27 日提出的一种原生可训练稀疏注意力机制,旨在解决长序列建模中的计算瓶颈问题。该方法结合了算法创新与硬件优化,实现了高效的长上下文建模。相关论文成果为「Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention」,该论文已获 ACL 25 最佳论文奖。

在 27B 参数的 Transformer 主干模型上进行预训练,NSA 在通用基准、长上下文任务和推理任务上,性能与全连接注意力模型相当或更优。在处理 64k 长度序列时,NSA 在解码、前向传播和反向传播阶段均实现了显著的加速。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供