Command Palette

Search for a command to run...

2 天前

Kimi Linear:一种表达性强、高效的Attention架构

Kimi Linear:一种表达性强、高效的Attention架构

摘要

我们提出Kimi Linear,一种混合型线性注意力架构,首次在多种场景下(包括短上下文、长上下文以及强化学习(RL)扩展范式)的公平对比中,超越了全连接注意力机制的表现。其核心为Kimi Delta注意力(KDA),一种具有高表达能力的线性注意力模块,通过在门控DeltaNet基础上引入更细粒度的门控机制,有效提升了对有限状态RNN记忆的利用效率。我们设计的专用分块算法,采用一种特化的对角加低秩(DPLR)转移矩阵变体,在显著降低计算开销的同时,仍保持与经典delta规则更高的契合度,从而实现极高的硬件效率。我们基于KDA与多头隐状态注意力(MLA)的分层混合结构,预训练了一个包含30亿激活参数、总计480亿参数的Kimi Linear模型。实验结果表明,在相同的训练策略下,Kimi Linear在所有评估任务中均显著优于全连接MLA,同时将KV缓存使用量降低高达75%,在100万上下文长度下实现最高达6倍的解码吞吐量提升。这些结果表明,Kimi Linear可作为全连接注意力架构的即插即用替代方案,在性能与效率方面均表现更优,尤其适用于输入和输出长度更长的任务。为支持后续研究,我们已开源KDA核心算子及vLLM实现,并发布预训练模型与指令微调后的模型检查点。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供