HyperAIHyperAI

Command Palette

Search for a command to run...

美国初创公司 Deep Cogito 发布 Cogito v2.1,宣称打造“美国制造的最佳开源大模型”,实则基于中国 DeepSeek-V3 架构完成深度优化。尽管在推理效率与多项基准测试中表现亮眼,其核心技术仍依赖于 DeepSeek 的基础模型,凸显全球 AI 开发中“中国底座、海外优化”的现实格局。公司坦承模型源自 DeepSeek-V3-Base,强调后训练阶段的技术创新,尤其在强化学习与迭代蒸馏放大(IDA)方面的突破,显著提升了推理效率与逻辑能力。然而,以“美国制造”为名、行“借力中国技术”之实的宣传策略,引发对地缘叙事与开源精神的反思。这不仅折射出硅谷对技术竞争的焦虑,更揭示了当前 AI 创新已进入“协作式演进”时代——真正的技术自信,不在于标签,而在于透明、开放与持续的实质性贡献。

今年10月,硅谷两家AI编程工具公司Cursor与Windsurf相继发布所谓“自研”大模型,引发开发者社区热议。然而不久后,有用户发现这些模型在推理过程中频繁出现中文输出,甚至在越狱后承认源自中国公司智谱AI。这一发现迅速引爆舆论,讽刺之声四起:“一边开源,一边自研”,仿佛借了邻居的工具,还要刷上新漆冒充原创。 而到了近日,这种“借壳上市”的做法似乎已不再遮掩。总部位于旧金山的初创公司Deep Cogito正式发布其旗舰模型Cogito v2.1 671B,CEO Drishan Arora在社交平台X上豪言:“今天,我们发布了由美国公司制造的最好的开源大语言模型。” 为佐证其说法,公司公布了一系列亮眼的基准测试数据:在GPQA Diamond推理测试中逼近GPT-5水平;在多语言MMLU上超越Claude Sonnet 4.5;数学与代码能力更是大幅领先Meta的Llama系列。 然而,熟悉AI领域的观察者很快注意到,671B这一参数规模与DeepSeek-V3完全一致。随后,Hugging Face上的模型配置文件中一行代码“base_model: deepseek-ai/DeepSeek-V3-Base”彻底揭开了谜底。与此前Cursor等人刻意隐瞒不同,Deep Cogito选择坦然承认:该模型确系基于DeepSeek-V3-Base进行分叉(fork)而来。 CEO Arora解释称,在当前AI生态中,预训练已近乎成为“通用基础设施”,如同电力一样普及。真正的挑战在于后训练——如何将一个基础模型打磨至前沿智能水平。他指出,美国除Meta外,极少有能提供高质量基础模型的机构,而DeepSeek因其成熟架构与低成本推理生态,成为无可争议的优选。 Deep Cogito的核心竞争力并非从零训练,而是其自主研发的“前沿后训练栈”。该团队基于DeepSeek基础模型,运用强化学习与迭代蒸馏放大(IDA)技术,对模型进行深度优化。通过数百个GPU节点的分布式训练,实现了推理效率的显著提升。在处理复杂逻辑任务时,Cogito v2.1平均仅消耗4894个Token,远低于Google Gemini 2.5 Pro的9178个,效率优势明显。 其背后的关键,是“过程监督”机制。传统模型依赖冗长的思维链逐步逼近答案,耗时耗力。而Cogito v2.1通过强化学习培养出更强的直觉判断能力,能在更短路径中锁定正确推理轨迹,真正实现“少即是多”。 在MATH-500数学基准测试中,Cogito v2.1以98.57%的得分微弱领先“老师”DeepSeek V3.2(97.87%),大幅超越Llama 4 Scout;在SWE-Bench Verified代码修复任务中也表现优异。 客观而言,Cogito v2.1确属一款高性能模型,尤其在推理效率与特定任务表现上具备创新价值。其技术投入值得肯定。但将一个核心架构与参数均源自中国DeepSeek的模型,冠以“美国公司制造的最好开源模型”之名,显然有失公允。更值得警惕的是,部分模型中隐含的意识形态倾向,背离了开源精神所倡导的开放、中立与协作。 这一事件再次印证:中国开源AI模型正成为全球创新的基石。无论是成本、效率还是技术成熟度,基于中国模型进行二次开发,已成为全球初创公司务实之选。从零预训练671B模型需数千万美元投入,而依托高质量开源底座,可大幅缩短研发周期、降低门槛。 Deep Cogito的做法,折射出部分硅谷从业者面对技术格局变化时的复杂心态:既无法忽视中国模型的强大实力,又难以摆脱“技术霸权”的执念。真正的技术自信,不在于包装叙事,而在于坦诚合作与实质贡献。开源的未来,终究属于超越国界的协作与共享。

الروابط ذات الصلة