AI agents still fall short of human consultants — but the gap is closing fast
Malgré leurs progrès rapides, les agents d’intelligence artificielle ne peuvent pas encore remplacer les consultants humains, mais cette situation pourrait évoluer rapidement, selon Brendan Foody, PDG de Mercor. Une nouvelle étude menée par l’entreprise, spécialisée dans la formation des modèles d’IA, évalue les performances d’agents IA dans des tâches réelles de conseil stratégique, de banque et de droit. Les résultats montrent que, dans la plupart des cas, ces modèles échouent à accomplir leurs missions dès la première tentative. Sur l’ensemble des catégories, les agents IA ont réussi moins de 25 % des tâches du premier coup, et même après huit essais, seulement 40 % ont été complétées. Pour les tâches de conseil managérial — les plus complexes — GPT-5.2 d’OpenAI a obtenu le meilleur score initial avec près de 23 % de réussite, tandis qu’Opus 4.6 d’Anthropic a progressé à 33 %, une amélioration significative par rapport à ses 13 % précédents en quelques mois. Les tâches simulées, conçues en collaboration avec des experts de McKinsey, BCG, Deloitte, Accenture et EY, reproduisent des missions réelles, comme l’analyse des schémas de consommation d’une catégorie de produits via la méthode du « Category Penetration Score ». Dans ce cas, les IA ont échoué à produire une réponse précise, révélant des limites critiques. Selon Foody, les modèles se débrouillent bien pour la recherche et l’analyse de données, mais peinent sur les tâches à long terme, celles qui exigent une planification complexe, une navigation dans des systèmes de fichiers ou une coordination entre plusieurs outils. Contrairement à un humain, l’IA ne comprend pas toujours où chercher l’information pertinente, ce qui conduit à des erreurs systématiques. Foody compare ces agents à des stagiaires : ils ont un taux de réussite d’environ 50 %, mais leur travail nécessite une supervision constante. Frank Jones, ancien consultant chez KPMG devenu expert chez Mercor, souligne que les modèles manquent de nuance dans des termes courants du métier comme « client-ready », qu’un humain comprend intuitivement, mais que l’IA interprète mal sans instructions très précises. Toutefois, les progrès sont fulgurants. Foody est convaincu que les taux de réussite atteindront 50 % d’ici la fin de l’année, grâce à une formation plus poussée et à des investissements massifs des laboratoires de pointe. Mercor, dont les clients incluent OpenAI, Anthropic et Meta, a été valorisé à 10 milliards de dollars après un tour de financement. L’entreprise emploie plus de 30 000 contractuels dans le monde pour améliorer les modèles, et a vu son chiffre d’affaires croître de 4 658 % en 2025. Foody prévoit que les postes de niveau basique dans les services professionnels seront parmi les premiers à être remplacés par l’IA. Il annonce que la prochaine version de son benchmark APEX-Agents évaluera non plus seulement les analystes, mais l’ensemble de la chaîne de valeur d’un cabinet comme McKinsey. « La version actuelle raconte une histoire rassurante pour McKinsey, mais la suivante va être effrayante », dit-il. Dans deux ans, affirme-t-il, les chatbots pourraient être aussi bons que les meilleurs cabinets de conseil.
