Star Attention 块稀疏注意力机制
Star Attention 是由 NVIDIA 于 2024 年提出的的块稀疏注意力机制,专为提高基于 Transformer 的大语言模型 (LLMs) 在长序列上的推理效率而设计。这种机制通过两阶段的处理流程显著提升了推理速度,并在保持高准确率的同时,优化了计算资源的使用。
相关论文成果为「Star Attention: Efficient LLM Inference over Long Sequences」,论文详细介绍了 Star Attention 的工作原理和优势,包括其在 2 个阶段的操作:第一阶段是上下文编码,第二阶段是查询处理和令牌生成。 Star Attention 能够显著减少推理时间,最多可以减少 11 倍的内存需求和推理时间,同时保持 95-100% 的准确性。