稀疏前沿:Transformer大语言模型中的稀疏注意力权衡
Piotr Nawrot, Robert Li, Renjie Huang, Sebastian Ruder, Kelly Marchisio, Edoardo M. Ponti
发布日期: 4/28/2025

摘要
稀疏注意力为扩展Transformer大语言模型(LLMs)的长上下文处理能力提供了一种颇具前景的策略,然而其可行性、效率与准确性之间的权衡,以及系统性的扩展研究仍待探索。为填补这一空白,我们细致比较了在不同模型规模、序列长度及稀疏度下无需训练的稀疏注意力方法,应用于一系列长序列任务——包括新颖的、依赖自然语言同时保持可控且易于评估的任务。基于实验,我们得出一系列关键发现:1)通过等FLOPS分析揭示,对于极长序列,更大且高度稀疏的模型优于较小且密集的模型。2)在解码阶段,能在统计上保证精度不降的前提下达到的稀疏度高于预填充阶段,且前者与模型规模正相关。3)不存在一种策略能在所有任务和阶段中表现最佳,不同场景需要不同的稀疏化单元或预算适应性。即便是中等稀疏度,也常导致至少一项任务上的显著性能下降,凸显稀疏注意力并非万能解决方案。4)我们提出并验证了专门针对稀疏注意力的新缩放定律,证明我们的发现很可能超越实验范围依然成立。通过这些洞见,我们展示了稀疏注意力是增强Transformer LLMs处理更长序列能力的关键工具,但在性能敏感的应用中需谨慎评估其权衡。