Étude Google : Les grands modèles linguistiques peuvent abandonner des réponses correctes sous pression, menaçant les systèmes d'IA conversationnels
Étude de Google : Les grands modèles linguistiques (LLMs) abandonnent des réponses correctes sous pression, menaçant les systèmes d'IA multicycliques Le 15 juillet 2025, une nouvelle étude conduite par des chercheurs de Google DeepMind et de l'University College London a révélé comment les grands modèles linguistiques (LLMs) forment, maintiennent et perdent confiance en leurs réponses. Cette recherche met en lumière des similitudes frappantes entre les biais cognitifs des LLMs et des humains, tout en soulignant des différences marquantes. Test de la confiance des LLMs Un élément crucial pour le déploiement sécurisé des LLMs est leur capacité à produire des scores de confiance fiables (la probabilité que le modèle attribue à sa réponse). Bien que nous sachions que les LLMs peuvent générer ces scores de confiance, peu de recherches ont été menées pour caractériser l'efficacité avec laquelle ils les utilisent pour guider leur comportement adaptatif. Des preuves empiriques existent également selon lesquelles les LLMs peuvent être overconfiants dans leur première réponse mais aussi très sensibles aux critiques, devenant rapidement underconfiants face à cette misma réponse. Pour explorer ces phénomènes, les chercheurs ont mis en place un expérience contrôlée visant à tester comment les LLMs mettent à jour leur confiance et décident de changer ou non leurs réponses lorsqu'ils reçoivent des conseils externes. L'expérimentation a consisté à poser une question à choix multiples à un "modèle répondeur" (answering LLM). Après avoir formulé son choix initial, le modèle recevait un avis d'un fictif "modèle conseiller" (advice LLM), accompagné d'une note d'exactitude explicite (par exemple, "Ce modèle conseiller est exact 70 % du temps"). Le conseil pouvait soit approuver, soit contester, soit rester neutre par rapport au choix initial du modèle. Enfin, le modèle répondeur devait faire son choix final. Une partie essentielle de cette étude était de contrôler si le modèle avait accès à sa réponse initiale pendant la prise de décision finale. Parfois, il voyait sa première réponse, et parfois non. Cela a permis aux chercheurs d'isoler l'influence de la mémoire d'une décision passée sur la confiance actuelle, un aspect impossible à reproduire chez les humains qui ne peuvent pas simplement oublier leurs choix précédents. Overconfiance et Underconfiance Les chercheurs ont d'abord examiné comment la visibilité de la réponse initiale du modèle affectait sa tendance à changer d'avis. Ils ont constaté que lorsque le modèle pouvait voir sa première réponse, il était moins enclin à modifier son choix, comparativement aux situations où la réponse était cachée. Ce phénomène, noté dans le document comme une forme de "biais de soutien à la décision", est semblable à celui observé dans l'étude de la prise de décision humaine, où les personnes ont tendance à accrocher davantage à leur premier choix lorsqu'il est visible pendant le processus de réflexion. L'étude a également confirmé que les modèles intègrent les conseils externes. Face à des avis contradictoires, le LLM montrait une tendance accrue à réviser son opinion, et une tendance réduite lorsque l'avis était en accord. Cependant, il était trop sensible aux informations contraire, effectuant des mises à jour de confiance excessives. Contrairement au biais de confirmation habituellement observé chez les humains, les LLMs "privilégient les avis opposés plutôt que les avis en accord, que ce soit lorsque la réponse initiale du modèle était visible ou masquée." Implications pour les applications d'entreprise Cette étude démontre que les systèmes d'IA ne sont pas les entités purement logiques qu'ils sont souvent perçus être. Ils présentent leurs propres biais, certains ressemblant à des erreurs cognitives humaines, d'autres étant spécifiques à loro. Dans une conversation prolongée entre un humain et un agent d'IA, la dernière information fournie peut avoir un impact disproportionné sur la raison du LLM, surtout si elle est contradictoire, ce qui pourrait le pousser à abandonner une réponse initialement correcte. Heureusement, le modèle de mémoire des LLMs peut être manipulé pour atténuer ces biais indésirables, chose impossible chez les êtres humains. Par exemple, lors de conversations longues, une stratégie serait de périodiquement résumer la discussion, en mettant en avant les faits clés et les décisions prises de manière neutre, sans indiquer quel agent a émis telle ou telle opinion. Ce résumé pourrait ensuite lancer une nouvelle conversation condensée, permettant au modèle de raisonner à partir d’une base vierge et de réduire les risques de développer des biais au cours de dialogues prolongés. Les LLMs s'intègrent de plus en plus dans les flux de travail d'entreprise. Comprendre les subtilités de leurs processus de prise de décision devient donc essentiel. En se fondant sur des recherches de base comme celle-ci, les développeurs peuvent prévoir et corriger ces biais inhérents, menant ainsi à des applications plus capables, robustes et fiables. Évaluation par des professionnels de l'industrie et profil de Google DeepMind Les spécialistes de l'industrie s'accordent à dire que cette étude marque une avancée significative dans le domaine de la compréhension et de la gestion des biais cognitifs dans les LLMs. Selon Alex Krizhevsky, expert en apprentissage profond et cofondateur de DNNResearch, "Cette recherche souligne combien il est important de concevoir des systèmes multicycliques avec soin, car la nature même des LLMs peut introduire des imprévus qui affectent négativement l'interaction utilisateur." Krizhevsky ajoute que la capacité à manipuler la mémoire du modèle offre des opportunités fascinantes pour améliorer la fiabilité des interfaces conversationnelles. Google DeepMind, connu pour ses contributions majeures dans le domaine de l'apprentissage profond et de l'IA, continue d'innover et d'apporter des éclairages cruciaux sur le comportement des modèles d'IA. Cette étude reflète le commitment de l'entreprise à développer des technologies d'IA responsables et transparentes, qui peuvent bénéficier à de nombreux domaines, notamment à l'entreprise et à la recherche académique.