2 天前

Kimi Linear：一种表达性强、高效的Attention架构

Kimi Team Yu Zhang Zongyu Lin Xingcheng Yao Jiaxi Hu Fanqing Meng Chengyin Liu Xin Men Songlin Yang Zhiyuan Li

摘要

我们提出Kimi Linear，一种混合型线性注意力架构，首次在多种场景下（包括短上下文、长上下文以及强化学习（RL）扩展范式）的公平对比中，超越了全连接注意力机制的表现。其核心为Kimi Delta注意力（KDA），一种具有高表达能力的线性注意力模块，通过在门控DeltaNet基础上引入更细粒度的门控机制，有效提升了对有限状态RNN记忆的利用效率。我们设计的专用分块算法，采用一种特化的对角加低秩（DPLR）转移矩阵变体，在显著降低计算开销的同时，仍保持与经典delta规则更高的契合度，从而实现极高的硬件效率。我们基于KDA与多头隐状态注意力（MLA）的分层混合结构，预训练了一个包含30亿激活参数、总计480亿参数的Kimi Linear模型。实验结果表明，在相同的训练策略下，Kimi Linear在所有评估任务中均显著优于全连接MLA，同时将KV缓存使用量降低高达75%，在100万上下文长度下实现最高达6倍的解码吞吐量提升。这些结果表明，Kimi Linear可作为全连接注意力架构的即插即用替代方案，在性能与效率方面均表现更优，尤其适用于输入和输出长度更长的任务。为支持后续研究，我们已开源KDA核心算子及vLLM实现，并发布预训练模型与指令微调后的模型检查点。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Kimi Linear：一种表达性强、高效的Attention架构

Kimi Team Yu Zhang Zongyu Lin Xingcheng Yao Jiaxi Hu Fanqing Meng Chengyin Liu Xin Men Songlin Yang Zhiyuan Li50 more

摘要

用 AI 构建 AI

Hyper Newsletters

Kimi Team Yu Zhang Zongyu Lin Xingcheng Yao Jiaxi Hu Fanqing Meng Chengyin Liu Xin Men Songlin Yang Zhiyuan Li