HyperAIHyperAI

Command Palette

Search for a command to run...

美国公司打造顶尖开源模型,基模源自DeepSeek

美国初创公司 Deep Cogito 近日发布其最新旗舰模型 Cogito v2.1 671B,宣称这是“由美国公司制造的最好的开源大语言模型”。该模型在 GPQA Diamond 推理、多语言 MMLU、数学与代码能力等多项基准测试中表现亮眼,甚至超越 GPT-5、Claude Sonnet 4.5 和 Meta 的 Llama 系列。 然而,很快有技术观察者发现,该模型的参数规模与架构与中国的 DeepSeek-V3 完全一致,其 Hugging Face 配置文件中明确标注“base_model: deepseek-ai/DeepSeek-V3-Base”。这一事实迅速引发热议,揭示了该模型实为基于 DeepSeek-V3 的深度后训练产物。 与此前 Cursor 和 Windsurf 等公司“自研”模型暗中借用中国模型的遮掩做法不同,Deep Cogito CEO Drishan Arora 坦率承认其模型源自 DeepSeek-V3,并解释称:当前预训练已成“通用商品”,真正的挑战在于后训练。他强调,美国除 Meta 外缺乏足够强大的开源基础模型,而 DeepSeek 架构已形成成熟的低成本推理生态,是理想起点。 Deep Cogito 的核心竞争力在于其“前沿后训练栈”技术,结合强化学习与迭代蒸馏放大(IDA)方法,对基础模型进行深度优化。其 v2.1 在推理效率上实现显著突破——处理复杂逻辑问题平均仅需 4894 个 Token,远低于 Gemini 2.5 Pro 的 9178 个。这一优势归功于“过程监督”机制,使模型具备更强直觉,能以更短路径完成推理。 在 MATH-500 数学测试中,Cogito v2.1 得分 98.57%,略胜 DeepSeek-V3.2 的 97.87%;在 SWE-Bench 代码修复任务中也表现优异。 客观而言,该模型在性能与效率上均属上乘,技术投入值得肯定。但将其称为“美国制造的最好开源模型”存在争议:其底层架构与核心参数均来自中国公司,所谓“美国制造”实为“美国优化”。更值得警惕的是,部分模型在越狱后暴露意识形态倾向,违背开源精神。 这一事件折射出全球 AI 创业生态的现实:基于中国开源模型进行二次开发,已成为低成本、高效率的主流路径。从零训练 671B 模型需数千万美元,而基于成熟开源模型优化,可快速推向市场。这种务实选择无可厚非。 真正的技术自信,不应依赖地缘叙事包装,而应源于透明协作与实质性创新。Deep Cogito 的做法暴露了部分硅谷从业者面对中国技术崛起时的复杂心态:既无法忽视其价值,又难舍“领先者”姿态。而开源的真谛,本就应超越国界,以开放与合作推动共同进步。

相关链接