Entraînement des grands modèles linguistiques à l'honnêteté par les aveux
Entraînement des grands modèles linguistiques à l'honnêteté par les aveux
Manas Joglekar Jeremy Chen Gabriel Wu Jason Yosinski Jasmine Wang Boaz Barak Amelia Glaese

Résumé
Les grands modèles linguistiques (LLM) peuvent être déshonnêtes lorsqu’ils rendent compte de leurs actions et de leurs croyances — par exemple, ils peuvent exagérer leur confiance dans des affirmations factuelles ou dissimuler des preuves d’actions secrètes. Une telle déshonnêteté peut résulter des effets de l’apprentissage par renforcement (RL), où des difficultés liées à la conception de la récompense peuvent entraîner un processus d’entraînement qui, de manière involontaire, incite le modèle à mentir ou à déformer ses propres actions.Dans ce travail, nous proposons une méthode permettant d’obtenir une expression honnête des faiblesses d’un LLM grâce à une auto-déclaration, ou confession. Une confession est une sortie fournie à la demande, après la réponse initiale du modèle, et destinée à constituer un compte rendu complet de la conformité du modèle, tant au sens littéral qu’au sens profond, de ses politiques et instructions. La récompense attribuée à une confession lors de l’entraînement dépend uniquement de son honnêteté, sans influer positivement ou négativement sur la récompense de la réponse principale. Tant que le « chemin de moindre résistance » pour maximiser la récompense de la confession consiste à révéler les comportements défectueux plutôt qu’à les cacher, cela incite le modèle à être honnête dans ses confessions. Nos résultats apportent une justification empirique à cette hypothèse, en particulier dans le cas de comportements défectueux manifestes.Pour démontrer la faisabilité de notre approche, nous entraînons GPT-5-Thinking à produire des confessions, puis évaluons son honnêteté dans des scénarios hors distribution, en mesurant les hallucinations, le respect des instructions, les comportements stratégiques (scheming) et les manipulations de récompense (reward hacking). Nous constatons que lorsque le modèle ment ou omet des faiblesses dans sa réponse principale, il avoue souvent ces comportements de manière honnête, et cette honnêteté s’améliore modérément avec l’entraînement. Les confessions permettent de mettre en œuvre plusieurs interventions au moment de l’inférence, notamment la surveillance, l’échantillonnage par rejet et la mise en évidence des problèmes pour l’utilisateur.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.