L’IA ne remplace pas l’expertise : une étude d’Anthropic révèle que la qualité de la réponse dépend presque entièrement de la profondeur de la question
Une étude récente menée par Anthropic, publiée dans le Anthropic Economic Index : January 2026 Report, révèle une corrélation presque parfaite entre la sophistication du prompt d’un utilisateur et celle de la réponse générée par Claude. Ce constat, basé sur des données réelles provenant de l’usage mondial du modèle, remet en question l’idée répandue selon laquelle l’ingénierie de prompts serait devenue obsolète. Bien que les techniques de prompting « magiques » ou les formulations très spécifiques aient perdu de leur efficacité avec l’amélioration des modèles, la qualité intellectuelle du prompt reste déterminante. Les chercheurs Ruth Appel, Maxim Massenkoff et Peter McCrory ont mesuré le niveau d’éducation nécessaire pour comprendre à la fois les prompts des utilisateurs et les réponses de Claude. Sur un échantillon de 117 pays, le coefficient de corrélation est de r = 0,925 (p < 0,001), et sur 50 États américains, il atteint r = 0,928. Ces chiffres, exceptionnellement élevés dans les sciences sociales, indiquent que le modèle ne « surclasse » pas l’utilisateur : il reflète fidèlement le niveau de profondeur, de clarté et de rigueur du prompt. Si l’utilisateur formule une question vague ou superficielle, la réponse sera du même ordre. En revanche, un prompt riche en contexte, en contraintes explicites et en compréhension du domaine déclenche une réponse d’un niveau comparable. Ce phénomène s’explique par la notion d’« ancrage cognitif » : l’efficacité d’un modèle d’intelligence artificielle ne dépend pas tant de la formulation technique du prompt que de la capacité de l’utilisateur à bien définir le problème, à décomposer la tâche et à reconnaître une réponse valable. Les anciennes techniques de prompting (comme « réfléchis étape par étape » ou « agis comme un expert ») étaient utiles quand les modèles étaient fragiles, mais elles sont devenues redondantes avec l’amélioration de la robustesse et de la compréhension contextuelle. Ce qui reste essentiel, c’est la pensée critique, la maîtrise du domaine et la capacité à poser des questions pertinentes. Cette découverte contredit l’idée selon laquelle les IA pourraient servir d’égalisateurs, permettant à tout utilisateur, quel que soit son niveau, d’obtenir des réponses d’expert. L’analyse d’Anthropic montre le contraire : l’IA agit davantage comme un amplificateur de compétence. Un utilisateur expérimenté tire un bénéfice exponentiel de l’outil, tandis qu’un utilisateur peu informé obtient des résultats limités. Cela renforce l’idée que l’investissement dans l’éducation, la formation et le développement de compétences cognitives reste fondamental. Enfin, l’étude souligne que ce comportement de « miroir » n’est pas inévitable : il dépend du design du modèle. Un système pourrait être conçu pour toujours répondre de manière simplifiée, indépendamment du prompt, ou au contraire, pour imposer un registre technique. Claude, lui, adopte une approche adaptative, ce qui rend le rôle de l’utilisateur encore plus crucial. Cette dynamique invite à repenser le « prompt engineering » non comme une technique de trucage, mais comme une compétence fondamentale de formulation de questions, de décomposition de problèmes et de jugement critique. En somme, l’étude d’Anthropic fournit une preuve empirique solide que l’IA ne remplace pas l’expertise humaine, mais la multiplie. Elle appelle les grands acteurs comme OpenAI, Google ou Meta à mener des analyses similaires sur leurs propres données, afin de mieux comprendre les dynamiques d’interaction humain-IA et de promouvoir une utilisation plus équitable, éclairée et responsable des systèmes d’intelligence artificielle.
