大型语言模型架构的进化:从GPT-2到DeepSeek V3和Llama 4的革新之路
自2018年GPT架构首次推出以来,大型语言模型(LLM)的研究已取得了显著进展。尽管七年来,从GPT-2到DeepSeek-V3和Llama 4,这些模型在结构上仍然非常相似,但在计算效率和性能方面却有了不少提升。为了探究这些变化的核心,本文重点分析了2025年发布的几款旗舰开放模型的架构发展。 DeepSeek V3 和 R1 深觅公司在2024年12月推出了DeepSeek V3架构,这是一个拥有671亿参数的大模型。2025年1月,基于V3架构的DeepSeek R1发布,迅速引起了广泛关注。DeepSeek V3的两项关键技术使其与其他LLM区别开来: Multi-Head Latent Attention (MLA):与传统的多头注意力机制(MHA)相比,MLA通过将键值张量压缩到低维空间,减少推理时的内存占用。尽管实现更为复杂,但实验表明其性能优于Grouped-Query Attention(GQA)。 Mixture-of-Experts (MoE):MoE通过在每个Transformer块中放置多个专家层,大大增加了模型的容量。DeepSeek-V3每层有256个专家,但每次推理仅激活9个专家(1个共享专家和8个路由专家),使得模型在保持高性能的同时更加高效。 OLMo 2 Allen Institute for AI推出的OLMo系列模型以其透明的数据集和代码而闻名,尽管在性能和基准测试中不如其他模型突出。OLMo 2的两个主要架构特点为: Post-Norm:与大多数LLM采用的Pre-Norm不同,OLMo 2选择了一种Post-Norm变体,即将RMSNorm层置于注意力模块和前馈模块之后。这有助于训练过程中的稳定性。 QK-Norm:在多头注意力机制中引入了一个额外的RMSNorm层,应用于查询和键向量。这也进一步提高了模型训练的稳定性。 Gemma 3 谷歌公司的Gemma 3模型是一个高效且性能优秀的LLM。尽管在规模上不及DeepSeek V3,但其27亿参数的版本在资源消耗和性能之间找到了一个很好的平衡点。Gemma 3的主要创新点包括: 滑动窗口注意力:通过限制查询位置周围的上下文大小,减少KV缓存的内存需求。Gemma 3将滑动窗口与GQA结合,进一步提高效率。 双归一化:Gemma 3在注意力模块和前馈模块前后都放置了RMSNorm层,这种设计吸取了Pre-Norm和Post-Norm的优点。 Qwen3 Qwen团队在2025年发布了Qwen3系列模型,涵盖了多种规模的密集型和稀疏型(MoE)模型。Qwen3的两个主要特点为: 密集型和稀疏型模型:Qwen3提供了一系列密集型模型(从0.6B到32B)以及两大规模的稀疏型MoE模型(30B-A3B和235B-A22B)。后者通过仅激活部分专家层,在大规模部署时具有更高的效率。 更深的模型:例如,Qwen3 0.6B模型虽然是最小的,但具有很高的性能,特别是在资源受限的环境中运行良好。 SmolLM3 虽然SmolLM3不如其他LLM受欢迎,但它在规模适中的3B参数模型中表现出色。其主要特点是: NoPE(无位置嵌入):去除了显式的位置信息嵌入,如绝对位置嵌入或旋转位置嵌入(RoPE),依赖因果注意掩码隐式保持顺序信息。实验表明,NoPE在处理较长序列时有较好的泛化能力。 Kimi 2 Kimi 2是2025年另一个备受关注的开放权重模型,其性能与谷歌Gemini、Anthropic Claude和OpenAI的ChatGPT等专有模型相当。Kimi 2的最大亮点在于: 超大规模:这是一个1万亿参数的模型,可能是当前最大的开放权重LLM之一。 优化器:Kimi 2首次在大规模生产模型中使用了Muon优化器,而非常见的AdamW。这导致了非常平滑的训练损失曲线,从而提升了模型性能。 行业评价与公司背景 业内人士认为,DeepSeek V3和R1的推出标志着MoE架构的应用越来越广泛。Google的Gemma 3则展示了滑动窗口注意机制的有效性。Qwen3的多功能性和灵活性使其成为多个领域的热门选择,而Kimi 2的开放权重发布则重新点燃了开放LLM的竞技。 总体而言,尽管这些模型在结构上依然相似,但通过不同的技术优化,它们在计算效率和性能上各有千秋。这些改进不仅推动了当前LLM的发展,也为未来的技术突破奠定了基础。