DeepSeek推出创新AI训练方法,推动大语言模型高效扩展
中国AI公司DeepSeek近日发布一项全新的大语言模型训练方法,有望显著提升模型扩展能力,被业内视为“基础模型演进的重要一步”。该方法名为“流形约束超连接”(Manifold-Constrained Hyper-Connections,简称mHC),由公司创始人梁文峰领衔撰写,发表于其最新研究论文中。 随着大模型规模不断增大,传统训练方式常因内部信息交流过载而引发模型不稳定或训练崩溃。DeepSeek的新方法通过在约束条件下实现更丰富的内部信息交互,在保持训练稳定性和计算效率的同时,支持模型高效扩展。该技术被分析人士评价为“重大突破”。 Counterpoint Research首席AI分析师魏Sun表示,该方法不仅有效控制了训练成本,还可能带来性能的显著提升。她认为,这一研究充分展现了DeepSeek在底层技术架构上的自主创新能力,表明其具备快速实验和推进非传统研究构想的能力。她将此视为DeepSeek继2025年1月发布R1推理模型后,再次突破算力瓶颈、实现智能跃升的“里程碑时刻”。 Omdia首席分析师连杰宇则指出,DeepSeek公开核心技术,不仅体现其技术自信,更可能推动整个AI行业跟进发展类似方法。这种“开放共享”正成为中资AI企业的重要战略优势。 目前,DeepSeek正筹备发布下一代旗舰模型R2,原定于2025年中发布,但因创始人对性能不满及高端AI芯片供应紧张而延期。尽管新论文未明确提及R2,但其发布时机引发外界猜测。连杰宇认为,新架构极可能被用于后续模型,如V4。而魏Sun则持保留态度,认为R2可能不会以独立版本推出,其技术更可能融入V3或V4中。 尽管DeepSeek的R1更新在技术上取得突破,但其在市场传播和国际影响力方面仍不及OpenAI、谷歌等头部企业。如何突破分发壁垒,仍是其未来发展的关键挑战。
