"Probable" n’a pas le même sens pour l’IA que pour nous : une faille critique dans la communication des risques
Lorsqu’un humain utilise un mot comme « probable » ou « probablement », il partage généralement une compréhension commune, même floue, de ce qu’il signifie. Mais lorsqu’un modèle d’intelligence artificielle comme ChatGPT emploie ces termes, il ne les évalue pas de la même manière que nous, selon une étude récente publiée dans la revue npj Complexity. Nos recherches montrent que, bien que les grands modèles linguistiques soient remarquablement habiles à converser, ils peinent à s’aligner sur les humains lorsqu’il s’agit de communiquer l’incertitude. L’étude s’est concentrée sur les mots d’estimation de probabilité — comme « peut-être », « probablement » ou « presque certain » — en comparant la manière dont les humains et les modèles attribuent des pourcentages numériques à ces termes. Bien que les modèles soient en accord avec les humains pour les extrêmes (comme « impossible »), ils divergent fortement pour les mots d’incertitude. Par exemple, un modèle peut associer « probable » à 80 % de probabilité, alors qu’un humain l’interprète plutôt comme 65 %. Cette différence pourrait s’expliquer par le fait que les humains utilisent des indices contextuels et des expériences personnelles pour interpréter ces termes, tandis que les modèles, en s’appuyant sur des données d’entraînement souvent contradictoires, produisent une moyenne qui ne reflète pas la perception humaine. L’étude a également révélé que les modèles sont sensibles au langage genré et au style des instructions : passer de « il » à « elle » dans une requête entraînait souvent des estimations plus rigides, révélant des biais présents dans les données d’entraînement. De même, la traduction d’une requête en chinois modifiait fréquemment les évaluations de probabilité, probablement en raison de différences culturelles et linguistiques dans la manière d’exprimer l’incertitude. Ce décalage n’est pas anodin. Dans des domaines critiques comme la santé, la politique ou la recherche scientifique, une mauvaise interprétation de termes comme « peu probable » peut compromettre la confiance et entraîner des décisions erronées. Par exemple, si un assistant IA décrit un effet secondaire comme « peu probable » alors que son seuil interne est plus élevé que celui du médecin, le risque de mauvaise décision augmente. D’autres recherches, inspirées par les méthodes d’analyse d’intelligence des années 1960, tentent de mieux comprendre comment les humains quantifient l’incertitude. Des approches comme le « chain-of-thought » (raisonnement étape par étape) sont explorées pour améliorer la transparence, mais nos résultats montrent qu’elles ne corrigent pas systématiquement les écarts. L’objectif futur est de concevoir des modèles capables de comprendre non seulement les mots, mais aussi le poids réel de l’incertitude qu’ils transmettent. Il faut développer des métriques plus rigoureuses pour garantir que, face à une probabilité de 10 %, le modèle utilise toujours le même mot. Dans un monde où les IA résument des articles scientifiques ou gèrent nos agendas, s’assurer que « probable » signifie bien « probable » est essentiel pour que ces systèmes deviennent des partenaires fiables, et non des imitateurs sophistiqués.
