HyperAI超神经

中国AI公司DeepSeek近日发布一项全新的大语言模型训练方法，有望显著提升模型扩展能力，被业内视为“基础模型演进的重要一步”。该方法名为“流形约束超连接”（Manifold-Constrained Hyper-Connections，简称mHC），由公司创始人梁文峰领衔撰写，发表于其最新研究论文中。随着大模型规模不断增大，传统训练方式常因内部信息交流过载而引发模型不稳定或训练崩溃。DeepSeek的新方法通过在约束条件下实现更丰富的内部信息交互，在保持训练稳定性和计算效率的同时，支持模型高效扩展。该技术被分析人士评价为“重大突破”。 Counterpoint Research首席AI分析师魏Sun表示，该方法不仅有效控制了训练成本，还可能带来性能的显著提升。她认为，这一研究充分展现了DeepSeek在底层技术架构上的自主创新能力，表明其具备快速实验和推进非传统研究构想的能力。她将此视为DeepSeek继2025年1月发布R1推理模型后，再次突破算力瓶颈、实现智能跃升的“里程碑时刻”。 Omdia首席分析师连杰宇则指出，DeepSeek公开核心技术，不仅体现其技术自信，更可能推动整个AI行业跟进发展类似方法。这种“开放共享”正成为中资AI企业的重要战略优势。目前，DeepSeek正筹备发布下一代旗舰模型R2，原定于2025年中发布，但因创始人对性能不满及高端AI芯片供应紧张而延期。尽管新论文未明确提及R2，但其发布时机引发外界猜测。连杰宇认为，新架构极可能被用于后续模型，如V4。而魏Sun则持保留态度，认为R2可能不会以独立版本推出，其技术更可能融入V3或V4中。尽管DeepSeek的R1更新在技术上取得突破，但其在市场传播和国际影响力方面仍不及OpenAI、谷歌等头部企业。如何突破分发壁垒，仍是其未来发展的关键挑战。

相关链接

相关链接

相关链接

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文

Command Palette

DeepSeek推出创新AI训练方法，推动大语言模型高效扩展

相关链接

Command Palette

DeepSeek推出创新AI训练方法，推动大语言模型高效扩展

相关链接

Command Palette

DeepSeek推出创新AI训练方法，推动大语言模型高效扩展

相关链接

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文