Command Palette

Search for a command to run...

分组查询注意力 Grouped-query Attention (GQA)

日期

2 年前

分组查询注意力 (GQA) 是一种在大型语言模型 (LLM) 中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法,它的目标是在保持 MQA 速度的同时实现 MHA 的质量。

GQA 的关键属性包括:

  • 插值:GQA 是 MQA 和 MHA 之间的中间方法,解决了 MQA 的缺点,例如质量下降和训练不稳定。
  • 效率:GQA 通过使用中间数量的键值头来优化性能,同时保持质量。
  • 权衡:GQA 在 MQA 的速度和 MHA 的质量之间取得平衡,提供有利的权衡。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供