HyperAIHyperAI

Command Palette

Search for a command to run...

US-Startup nutzt chinesischen Grundmodell für „besten Open-Source-Chatbot“

2024年10月,美国初创公司Deep Cogito发布其最新旗舰模型Cogito v2.1 671B,宣称这是“由美国公司制造的最好的开源大语言模型”。该模型在GPQA Diamond推理测试中逼近GPT-5水平,在多语言MMLU上超越Claude Sonnet 4.5,并在数学与代码能力上大幅领先Meta的Llama系列。其性能表现引发广泛关注,尤其在推理效率方面实现显著突破:处理复杂逻辑问题平均仅消耗4894个Token,远低于Google Gemini 2.5 Pro的9178个。这一优势归功于公司自主研发的“前沿后训练栈”技术,结合强化学习与迭代蒸馏放大(IDA)方法,通过数百个GPU节点进行大规模分布式训练,优化模型的推理路径与决策效率。 然而,技术亮点背后隐藏着关键事实:Cogito v2.1的架构与参数规模(671B)与中国的DeepSeek-V3完全一致,其HuggingFace配置文件中明确标注“base_model: deepseek-ai/DeepSeek-V3-Base”。与此前Cursor和Windsurf公司试图掩盖模型来源的做法不同,Deep Cogito CEO Drishan Arora坦率承认模型源自DeepSeek-V3,并解释称,在当前AI领域,预训练已成“通用商品”,真正的挑战在于后训练阶段的优化。他强调,美国除Meta外缺乏可选的高质量基础模型,而DeepSeek因其高效的推理生态成为理想起点。 尽管如此,该模型仍引发争议。尽管Deep Cogito在技术上实现了高效推理与性能提升,但将一个基于中国模型、经美国团队后训练优化的产物,标榜为“美国制造的最好开源模型”,在地缘政治语境下显得言过其实。更值得警惕的是,有分析指出模型中可能存在意识形态倾向的植入,违背了开源社区倡导的中立与透明原则。这一做法折射出部分硅谷初创企业面对中国AI崛起时的复杂心态:既依赖中国开源模型的技术基础,又急于构建“本土创新”的叙事以维持话语权。 客观而言,Deep Cogito的技术投入值得肯定。其在过程监督(Process Supervision)方面的探索,使模型具备更强直觉与更短推理路径,体现了后训练阶段的深度创新。而基于开源模型进行二次开发,已成为全球AI创业者的务实选择——从零训练671B模型需数千万美元投入,而借助高质量开源底座可大幅降低门槛、加速产品迭代。 这一事件再次凸显开源生态的本质:技术突破源于全球协作,而非地缘壁垒。真正的技术自信不在于宣称“某国最强”,而在于坦诚溯源、贡献创新。Deep Cogito的案例提醒我们,当竞争被简化为国家叙事时,反而可能掩盖了开源精神的核心价值——开放共享、协同进化。

Verwandte Links

US-Startup nutzt chinesischen Grundmodell für „besten Open-Source-Chatbot“ | Aktuelle Beiträge | HyperAI