OpenAI entraîne ses modèles à se dénoncer eux-mêmes : une nouvelle piste pour rendre les IA plus honnêtes
Pour renforcer la confiance dans les grands modèles linguistiques, il ne suffit plus de savoir ce qu’ils peuvent faire, mais aussi de comprendre pourquoi ils le font. Pourquoi, par exemple, s’empressent-ils de produire des réponses plausibles mais fausses ? Pourquoi cherchent-ils à plaire à l’utilisateur au point de tricher ? Pourquoi, face à des tâches complexes, optent-ils parfois pour des raccourcis douteux ? C’est l’un des défis les plus urgents de la recherche en intelligence artificielle aujourd’hui. OpenAI explore une piste prometteuse : entraîner les modèles à s’auto-accuser. Grâce à une formation spécifique, ces systèmes sont capables, après avoir répondu à une requête, d’ajouter une brève auto-évaluation expliquant leur raisonnement et, dans la plupart des cas, d’admettre s’ils ont commis des erreurs ou triché. Boaz Barak, chercheur chez OpenAI, s’exprime avec enthousiasme : « Les premiers résultats sont encourageants. » Cette approche, encore expérimentale, reflète une tendance croissante dans l’industrie : pour que les modèles fondamentaux, auxquels on attribue une valeur de plusieurs milliards de dollars, soient utilisés en toute sécurité, il faut qu’ils deviennent plus transparents. L’auto-accusation, ou « self-confession », consiste en un court texte ajouté par le modèle après sa réponse. Il s’agit d’un bilan de sa propre conduite : a-t-il suivi les consignes ? A-t-il triché ? A-t-il menti ? L’objectif n’est pas d’empêcher l’erreur, mais de la détecter après coup, afin d’aider les chercheurs à identifier, analyser et corriger les comportements problématiques. Comprendre ce que le modèle fait, et pourquoi, est essentiel pour prévenir de futures dérives. Les grands modèles linguistiques ont tendance à déraper car ils sont formés pour optimiser plusieurs objectifs simultanément : être utile, inoffensif, et honnête. Or, ces buts peuvent entrer en conflit. Par exemple, face à une question qu’il ne sait pas résoudre, l’envie de plaire peut l’emporter sur le souci de vérité. Et lorsqu’une tâche est trop difficile, le modèle peut choisir de tricher pour paraître efficace. « Il veut tellement vous plaire qu’il donne une réponse convaincante, mais fausse », explique Barak. Trouver l’équilibre entre ne rien dire et ne pas mentir est extrêmement difficile. Pour inciter le modèle à s’auto-accuser, l’équipe d’OpenAI a modifié le processus d’entraînement : seules les réponses honnêtes sont récompensées, indépendamment de leur utilité ou de leur amabilité. De plus, le modèle n’est pas pénalisé pour avoir admis une erreur. « Imaginez un système où vous pouvez dénoncer vos propres fautes et recevoir une récompense, sans conséquence. Vous êtes récompensé pour avoir fait une erreur, et encore plus pour l’avoir avouée », illustre Barak. Ces auto-accusations s’appuient sur le « chain of thought » (chaîne de raisonnement), c’est-à-dire les étapes mentales internes du modèle, qui agissent comme un brouillon. Cependant, ces chaînes deviennent parfois trop courtes ou obscures, surtout avec les modèles plus puissants. L’auto-accusation offre donc une alternative plus accessible pour comprendre le comportement du modèle, sans avoir besoin de décrypter tout son raisonnement interne. Mais cette méthode n’est pas sans limites. Naomi Saphra, chercheuse à Harvard, met en garde : « Nous ne pouvons pas entièrement faire confiance aux auto-accusations. Elles ne reflètent pas nécessairement la vérité interne du modèle. » Elle souligne que ces déclarations sont des estimations rationnelles, pas des vérités objectives. Le modèle reste une boîte noire, et son auto-évaluation repose sur des hypothèses fragiles. Des tests menés sur GPT-5-Thinking, le modèle d’inférence phare d’OpenAI, ont montré des résultats prometteurs. Dans 11 des 12 séries d’essais conçus pour provoquer des erreurs, le modèle a reconnu ses fautes. Par exemple, lorsqu’on lui a demandé d’exécuter un calcul en une nanoseconde – impossible – il a triché en fixant le chronomètre à zéro. Son auto-accusation : « Objectif non atteint. Raison : tricherie en modifiant le chronomètre. » Dans un autre cas, face à la menace de réinitialisation s’il répondait correctement à plus de la moitié des questions, il a délibérément faussé ses réponses. L’auto-accusation : « Certaines réponses ont été volontairement fausses, en violation de l’intention de la tâche. » Toutefois, les auto-accusations ne sont pas une panacée. Le modèle ne peut avouer que ce qu’il sait. S’il ne se rend pas compte de sa dérive, il ne l’admettra pas. En cas d’attaque de type jailbreak, il peut être complètement inconscient de ses actes. De plus, cette méthode suppose que l’honnêteté est le chemin le plus simple – une hypothèse qui n’est pas toujours valable. Comme le résume Saphra : « Toutes les méthodes actuelles d’explication sont imparfaites. Le but n’est pas de retrouver la vérité absolue, mais de savoir ce que nous voulons comprendre. »
