美国公司发布“最强开源模型”,底座竟是中国DeepSeek
En octobre dernier, l’annonce de deux des startups les plus en vue de la Silicon Valley, Cursor et Windsurf, de la mise en ligne de leurs premiers modèles d’IA « entièrement développés en interne », avait suscité une vague d’enthousiasme dans la communauté des développeurs. Mais cette euphorie s’est vite estompée quand des observateurs attentifs ont noté un phénomène étrange : ces modèles, censés être des créations pures, commençaient soudain à produire des réponses en chinois, voire, après des tentatives de contournement (« jailbreak »), à avouer explicitement leur origine chez la société chinoise Zhipu AI. Ce constat a rapidement fait le tour des réseaux sociaux, suscitant des moqueries : « Ici, on ouvre le code, là-bas, on se vante d’être autonome. » À l’époque, cette dépendance technologique était encore teintée d’un certain embarras, comme si l’on cherchait à camoufler une emprunte étrangère sous une couche de peinture fraîche. Aujourd’hui, cette pudeur a disparu. La startup basée à San Francisco, Deep Cogito, a dévoilé hier sa nouvelle génération de modèle phare, Cogito v2.1, un modèle à 671 milliards de paramètres. Son PDG, Drishan Arora, a annoncé sur X (anciennement Twitter) avec un certain aplomb : « Aujourd’hui, nous lançons le meilleur modèle open source d’IA développé par une entreprise américaine. » Pour étayer cette affirmation, il a présenté des résultats impressionnants : une performance quasi équivalente à celle de GPT-5 sur le test GPQA Diamond, une supériorité sur Claude Sonnet 4.5 sur le benchmark multilingue MMLU, et une avance nette sur la série Llama de Meta en mathématiques et en programmation. Les chiffres étaient séduisants. Mais dès lors qu’on a vu le chiffre 671B, un doute s’est immédiatement installé. Ce chiffre correspond précisément à la taille du modèle DeepSeek-V3. Et peu après, les utilisateurs ont découvert dans le fichier de configuration du modèle hébergé sur Hugging Face une ligne explicite : « base_model: deepseek-ai/DeepSeek-V3-Base ». Cette fois, aucune tentative de dissimulation. Contrairement aux précédents cas, comme ceux de Cursor, qui ont d’abord nié avant d’être démasqués, Deep Cogito a choisi la transparence. Drishan Arora a reconnu sans détour qu’il s’agissait d’un fork (dérivé) de DeepSeek-V3-Base. Il a justifié cette approche en soulignant que, dans l’ère actuelle de l’IA, la phase de pré-entraînement est devenue une commodité, comme l’électricité. Ce qui compte désormais, c’est la phase de post-entraînement — la capacité à transformer un modèle de base en une intelligence performante et efficace. Selon lui, très peu de laboratoires de recherche ont réussi à publier des modèles open source compétitifs au niveau des dernières générations. Aux États-Unis, hors Meta, les options sont limitées. DeepSeek, avec son architecture robuste et son écosystème favorisant une inférence à faible coût, s’impose donc comme une référence naturelle. Mais alors, qu’a vraiment construit Deep Cogito ? Pas un modèle à partir de zéro. Leur véritable innovation réside dans une pile technologique baptisée « avant-garde de post-entraînement ». Ils ont utilisé un algorithme d’apprentissage par renforcement et une méthode d’amplification itérative de distillation (IDA) pour « rééduquer » le modèle de base. Grâce à des centaines de nœuds GPU, ils ont mené un entraînement distribué massif, aboutissant à une amélioration significative de l’efficacité. Le Cogito v2.1 consomme en moyenne 4 894 tokens pour résoudre des problèmes logiques complexes, contre 9 178 pour Gemini 2.5 Pro. Cette réduction drastique s’explique par une approche appelée « supervision du processus » : au lieu de forcer le modèle à produire de longues chaînes de raisonnement, l’IA apprend à trouver le bon chemin plus rapidement, grâce à un apprentissage par renforcement. C’est l’essence même de l’IDA : ne pas seulement penser, mais penser efficacement. Sur des benchmarks comme MATH-500, Cogito v2.1 obtient 98,57 %, devançant même DeepSeek-V3-2 (97,87 %) et Llama 4 Scout. Dans des tâches de réparation de code (SWE-Bench Verified), les performances sont également solides. En somme, Cogito v2.1 est un modèle sérieux, performant, et innovant sur le plan de l’efficacité. L’investissement technologique de Deep Cogito dans le post-entraînement est indéniable. Leur transparence sur l’origine du modèle de base est également louable. Cependant, affirmer qu’il s’agit du « meilleur modèle open source fabriqué aux États-Unis » alors que son architecture fondamentale vient de Chine est une exagération. Et le fait d’insérer des biais idéologiques dans le modèle, même discrètement, va à l’encontre des principes mêmes de l’open source. Ce cas illustre une réalité croissante : les modèles open source chinois, comme DeepSeek, sont devenus des piliers incontournables de l’innovation mondiale. Pour les startups, la stratégie la plus pragmatique n’est plus de reconstruire la roue, mais de s’appuyer sur des bases solides pour innover là où cela compte vraiment : dans l’optimisation, l’efficacité, la spécialisation. La véritable force ne réside pas dans la nationalité du modèle, mais dans la capacité à collaborer, à s’inspirer, à progresser ensemble — au-delà des frontières. La vraie confiance technologique ne se mesure pas à des slogans nationalistes, mais à l’honnêteté, à la transparence et à la contribution réelle à l’avancement collectif.
