2025, l'année où les LLMs ont enfin su raisonner, agir et coder tout seuls
2025 a été une année marquante pour les modèles de langage à grande échelle (LLM), marquée par des avancées technologiques rapides, des changements de paradigme et une maturation des applications concrètes. L’année a été dominée par l’essor de la raisonnement — une approche fondée sur l’apprentissage par renforcement à récompenses vérifiables (RLVR) — lancée par OpenAI avec les modèles o1 et o1-mini en septembre 2024, puis renforcée en 2025 par o3, o3-mini et o4-mini. Cette technique, expliquée par Andrej Karpathy comme une manière pour les LLM d’acquérir des stratégies de résolution de problèmes similaires à celles des humains, a permis aux modèles de décomposer des tâches complexes, de planifier des actions multiples et de réviser leurs décisions. Le résultat ? Des modèles capables de traiter des problèmes de logique mathématique, de debugguer du code ou d’effectuer des recherches approfondies, notamment via des agents capables d’interagir avec des outils. C’est dans ce contexte que les agents sont devenus une réalité. Si l’année précédente restait marquée par des promesses vagues, 2025 a vu l’arrivée de systèmes concrets, notamment avec le lancement silencieux de Claude Code en février, intégré à Claude 3.7 Sonnet. Ce système, basé sur un agent asynchrone, peut écrire, exécuter, analyser et itérer du code sans intervention humaine, et a rapidement gagné en popularité. D’autres acteurs ont suivi : OpenAI a lancé Codex Web, Google a présenté Jules, et des outils indépendants comme GitHub Copilot CLI, OpenHands CLI et Pi ont émergé. L’adoption de ces agents, particulièrement dans le développement logiciel, a transformé la productivité, permettant d’automatiser des tâches complexes en quelques minutes. L’année a aussi vu l’essor des LLM sur la ligne de commande, prouvant que l’interface CLI, longtemps marginale, est désormais un outil puissant pour les développeurs. Des outils comme Claude Code pour le web ou Codex Cloud, capables de fonctionner en mode « YOLO » (sans validation), ont permis des expériences rapides et efficaces, malgré les risques de sécurité. Cela a suscité des inquiétudes, notamment à travers le phénomène de normalisation du déviance décrit par le chercheur Johann Rehberger, où l’absence de conséquences immédiates mène à une acceptation croissante de comportements dangereux. Le marché des abonnements a évolué vers des tarifs élevés, avec des plans à 200 $/mois (Claude Pro Max 20x, ChatGPT Pro) et 249 $/mois (Google AI Ultra), justifiés par l’usage intensif d’outils comme les agents de codage, qui consomment des milliers de tokens. En parallèle, les modèles chinois ont éclaté sur la scène mondiale : GLM-4.7, Kimi K2 Thinking, DeepSeek V3.2, MiniMax-M2.1, tous open source, ont dominé les classements des modèles open weight, dépassant même des modèles d’OpenAI. Leur impact a été si fort qu’un lancement de DeepSeek R1 a provoqué une chute de 600 milliards de dollars de capitalisation boursière de NVIDIA, mettant en question l’idée d’un monopole américain. L’année a aussi vu des performances exceptionnelles en compétitions académiques : des modèles comme GPT-5 Pro et Gemini Deep Think ont remporté des médailles d’or à l’Olympiade internationale de mathématiques, sans accès à des outils, prouvant la capacité de raisonnement interne avancé. De même, des modèles ont excellé à l’ICPC, un concours de programmation de haut niveau. Cependant, l’année a été marquée par un déclin de l’image de Meta, dont Llama 4, trop volumineux pour être exécuté localement, a déçu. L’absence de modèles de taille raisonnable a affaibli sa position, tandis qu’OpenAI, malgré sa suprématie en notoriété, a vu ses leaders en performance dépassés par des concurrents, notamment dans l’image (Nano Banana Pro) et le code (Opus 4.5). Enfin, 2025 a vu l’émergence de nouveaux paradigmes : vibe coding, le MCP (Model Context Protocol) — qui a connu un succès éphémère avant d’être remplacé par des solutions plus simples comme les Skills d’Anthropic —, l’IA embarquée dans les navigateurs, et le phénomène du slop (contenu de faible qualité produit par l’IA), devenu mot de l’année selon Merriam-Webster. L’année a aussi été marquée par un rejet croissant des centres de données, en raison de leur impact énergétique et environnemental. En somme, 2025 a été l’année où les LLM sont passés de l’expérimentation à l’usage productif, transformant le développement logiciel, la recherche, et même l’imagination — avec, en point d’orgue, l’image d’un pélican en vélo, devenu un mème et un test implicite de la créativité des modèles.
