Command Palette
Search for a command to run...

摘要
我们提出Kimi Linear,一种混合型线性注意力架构,首次在多种场景下(包括短上下文、长上下文以及强化学习(RL)扩展范式)的公平对比中,超越了全连接注意力机制的表现。其核心为Kimi Delta注意力(KDA),一种具有高表达能力的线性注意力模块,通过在门控DeltaNet基础上引入更细粒度的门控机制,有效提升了对有限状态RNN记忆的利用效率。我们设计的专用分块算法,采用一种特化的对角加低秩(DPLR)转移矩阵变体,在显著降低计算开销的同时,仍保持与经典delta规则更高的契合度,从而实现极高的硬件效率。我们基于KDA与多头隐状态注意力(MLA)的分层混合结构,预训练了一个包含30亿激活参数、总计480亿参数的Kimi Linear模型。实验结果表明,在相同的训练策略下,Kimi Linear在所有评估任务中均显著优于全连接MLA,同时将KV缓存使用量降低高达75%,在100万上下文长度下实现最高达6倍的解码吞吐量提升。这些结果表明,Kimi Linear可作为全连接注意力架构的即插即用替代方案,在性能与效率方面均表现更优,尤其适用于输入和输出长度更长的任务。为支持后续研究,我们已开源KDA核心算子及vLLM实现,并发布预训练模型与指令微调后的模型检查点。