HyperAI超神经

中国AI公司DeepSeek近日发布其大模型R1的Peer-reviewed论文，正式回应外界对其训练方式的质疑。该论文发表于《自然》（Nature），首次公开披露了R1模型的训练细节，明确表示其推理能力并非通过复制其他大模型（如GPT系列）的输出而获得，而是基于自主创新的强化学习技术实现。 DeepSeek强调，R1模型的核心创新在于采用“纯强化学习”（pure reinforcement learning）方法，而非依赖人类标注的推理示范。该技术通过设定“正确答案即奖励”的机制，让模型在大量试错中自主演化出复杂的推理策略。例如，在数学和编程任务中，模型会自发生成反思、验证和多路径探索的思维过程，形成类似人类“顿悟”的能力。这一过程无需人工提供“一步步思考”的范例，显著降低了训练成本。论文显示，DeepSeek-R1的训练总成本仅为约29.4万美元（不含基础模型预训练），远低于OpenAI、Google等公司动辄数千万美元的投入。其训练主要依赖512块Nvidia H800芯片，尽管这些芯片受美国出口管制限制，但DeepSeek通过优化算法与计算架构，实现了高效训练。值得注意的是，R1并非一蹴而就。其训练分为多个阶段：首先基于DeepSeek-V3基础模型，通过强化学习（GRPO算法）训练出“DeepSeek-R1-Zero”，在数学竞赛AIME 2024中准确率从15.6%提升至86.7%；随后通过引入人类偏好数据、拒绝采样与监督微调，进一步优化了语言流畅性、多语言一致性与安全性，最终形成通用性强的DeepSeek-R1。尽管R1在推理任务上表现卓越，但研究也坦承其局限：存在语言混杂（中英文混用）、输出过长（有时达万字）、对提示词敏感等问题。此外，模型尚未具备工具调用能力，也无法有效处理主观性较强的开放问题。 DeepSeek还特别强调，该模型在安全方面已通过多维度评估，其内在安全水平与GPT-4o相当，结合外部风险控制系统后可达更高标准。但研究者也提醒，纯强化学习依赖可靠的奖励机制，若用于写作等难以验证的任务，可能面临“奖励欺骗”风险。这一论文的发表，标志着中国AI团队首次以国际顶级期刊标准公开验证其大模型的训练逻辑，为全球AI发展提供了新的技术路径参考。同时，其低成本、高效率的训练模式，或将推动生成式AI向更普惠、更可持续的方向演进。