SeerAttention-R:用于长推理的稀疏注意力适应
Gao, Yizhao ; Guo, Shuming ; Cao, Shijie ; Xia, Yuqing ; Cheng, Yu ; Wang, Lei ; Ma, Lingxiao ; Sun, Yutao ; Ye, Tianzhu ; Dong, Li ; So, Hayden Kwok-Hay ; Hua, Yu ; Cao, Ting ; Yang, Fan ; Yang, Mao
发布日期: 6/12/2025

摘要
我们介绍了SeerAttention-R,这是一种专为推理模型长解码设计的稀疏注意力框架。该框架扩展自SeerAttention,保留了通过自蒸馏门控机制学习注意力稀疏性的设计,同时去除了查询池化以适应自回归解码。借助轻量级插入门控机制,SeerAttention-R具有灵活性,可以轻松集成到现有的预训练模型中而无需修改原始参数。我们在AIME基准测试中展示了仅在0.4亿个标记上训练的SeerAttention-R,在4K标记预算下,即使在较大的稀疏注意力块大小(64/128)下也能保持接近无损的推理准确性。利用TileLang,我们开发了一个高度优化的稀疏解码内核,在H100 GPU上实现了高达9倍的理论速度提升,稀疏度达到90%。代码可在以下地址获取:https://github.com/microsoft/SeerAttention。