HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Star Attention 块稀疏注意力机制

Date

1 年前

Star Attention 是由 NVIDIA 于 2024 年提出的的块稀疏注意力机制,专为提高基于 Transformer 的大语言模型 (LLMs) 在长序列上的推理效率而设计。这种机制通过两阶段的处理流程显著提升了推理速度,并在保持高准确率的同时,优化了计算资源的使用。

相关论文成果为「Star Attention: Efficient LLM Inference over Long Sequences」,论文详细介绍了 Star Attention 的工作原理和优势,包括其在 2 个阶段的操作:第一阶段是上下文编码,第二阶段是查询处理和令牌生成。 Star Attention 能够显著减少推理时间,最多可以减少 11 倍的内存需求和推理时间,同时保持 95-100% 的准确性。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供