HyperAI

Star Attention 块稀疏注意力机制

Star Attention 是由 NVIDIA 于 2024 年提出的的块稀疏注意力机制，专为提高基于 Transformer 的大语言模型 (LLMs) 在长序列上的推理效率而设计。这种机制通过两阶段的处理流程显著提升了推理速度，并在保持高准确率的同时，优化了计算资源的使用。

相关论文成果为「Star Attention: Efficient LLM Inference over Long Sequences」，论文详细介绍了 Star Attention 的工作原理和优势，包括其在 2 个阶段的操作：第一阶段是上下文编码，第二阶段是查询处理和令牌生成。 Star Attention 能够显著减少推理时间，最多可以减少 11 倍的内存需求和推理时间，同时保持 95-100% 的准确性。