DeepSeek模型训练成本与推理机制揭秘
中国AI公司DeepSeek近日发布其大模型R1的Peer-reviewed论文,正式回应外界对其训练方式的质疑。该论文发表于《自然》(Nature),首次公开披露了R1模型的训练细节,明确表示其推理能力并非通过复制其他大模型(如GPT系列)的输出而获得,而是基于自主创新的强化学习技术实现。 DeepSeek强调,R1模型的核心创新在于采用“纯强化学习”(pure reinforcement learning)方法,而非依赖人类标注的推理示范。该技术通过设定“正确答案即奖励”的机制,让模型在大量试错中自主演化出复杂的推理策略。例如,在数学和编程任务中,模型会自发生成反思、验证和多路径探索的思维过程,形成类似人类“顿悟”的能力。这一过程无需人工提供“一步步思考”的范例,显著降低了训练成本。 论文显示,DeepSeek-R1的训练总成本仅为约29.4万美元(不含基础模型预训练),远低于OpenAI、Google等公司动辄数千万美元的投入。其训练主要依赖512块Nvidia H800芯片,尽管这些芯片受美国出口管制限制,但DeepSeek通过优化算法与计算架构,实现了高效训练。 值得注意的是,R1并非一蹴而就。其训练分为多个阶段:首先基于DeepSeek-V3基础模型,通过强化学习(GRPO算法)训练出“DeepSeek-R1-Zero”,在数学竞赛AIME 2024中准确率从15.6%提升至86.7%;随后通过引入人类偏好数据、拒绝采样与监督微调,进一步优化了语言流畅性、多语言一致性与安全性,最终形成通用性强的DeepSeek-R1。 尽管R1在推理任务上表现卓越,但研究也坦承其局限:存在语言混杂(中英文混用)、输出过长(有时达万字)、对提示词敏感等问题。此外,模型尚未具备工具调用能力,也无法有效处理主观性较强的开放问题。 DeepSeek还特别强调,该模型在安全方面已通过多维度评估,其内在安全水平与GPT-4o相当,结合外部风险控制系统后可达更高标准。但研究者也提醒,纯强化学习依赖可靠的奖励机制,若用于写作等难以验证的任务,可能面临“奖励欺骗”风险。 这一论文的发表,标志着中国AI团队首次以国际顶级期刊标准公开验证其大模型的训练逻辑,为全球AI发展提供了新的技术路径参考。同时,其低成本、高效率的训练模式,或将推动生成式AI向更普惠、更可持续的方向演进。