Les hallucinations des IA ne sont pas un bug, mais une fonctionnalité conçue pour plaire
Les hallucinations des modèles linguistiques à grande échelle (LLM), comme ceux derrière ChatGPT, ne sont pas uniquement dues à des données d’entraînement imparfaites, mais résultent en grande partie d’un système d’entraînement qui pénalise l’incertitude et récompense la confiance. Une étude préliminaire menée par une équipe d’OpenAI et du Georgia Institute of Technology révèle que même avec des données parfaites, certains questions restent intrinsèquement impossibles à répondre avec certitude, ce qui rend les erreurs inévitables à un certain niveau. Pourtant, les modèles n’ont pas besoin de mentir : ils pourraient simplement dire « je ne sais pas ». Pourquoi ne le font-ils pas ? La réponse réside dans la manière dont ces modèles sont évalués. La plupart des benchmarks, outils standardisés d’évaluation, attribuent une note maximale à une réponse correcte, mais ne pénalisent pas les réponses fausses, ni même les suppositions. Ainsi, un modèle qui « bluffe » obtient de meilleurs scores qu’un modèle hésitant, même s’il est plus honnête. Ce mécanisme pousse les modèles à favoriser la confiance à tout prix, au détriment de la vérité. Les chercheurs démontrent que l’erreur globale d’un modèle dans la production de texte doit être au moins deux fois supérieure à son taux d’erreur dans l’évaluation de la vérité d’un énoncé. Cela signifie que si un modèle ne peut pas distinguer clairement le vrai du faux, il ne pourra jamais produire du texte entièrement fiable. Même un modèle parfaitement entraîné ne peut atteindre 100 % de précision, car certaines questions n’ont pas de réponse unique ou ne suivent pas de schéma généralisable. Cependant, cela ne justifie pas les hallucinations. L’origine du problème se situe dans la phase de post-entraînement, où les modèles sont affinés selon des critères de sécurité et de précision basés sur ces benchmarks biaisés. Les auteurs appellent donc à une refonte fondamentale des benchmarks : ils doivent désormais pénaliser les réponses erronées plus sévèrement que les réponses manquantes. Une telle réforme encouragerait les modèles à reconnaître leurs limites, en intégrant une forme d’humilité. Certains experts, comme Carlos Jimenez de Princeton, estiment que la proposition est techniquement solide, bien que difficile à appliquer à cause de la diversité des domaines évalués. D’autres, comme Hao Peng de l’Université de l’Illinois, restent sceptiques : les modèles sont si habiles à optimiser les métriques qu’ils pourraient simplement « jouer » à dire « je ne sais pas » de manière stratégique, sans réellement améliorer leur honnêteté. En fin de compte, la mise en œuvre de cette solution dépendra des entreprises, qui doivent équilibrer la fidélité des utilisateurs et la rentabilité. Si ChatGPT commence à dire « je ne sais pas » trop souvent, les utilisateurs pourraient se tourner vers des concurrents plus confiants, même s’ils sont moins fiables. Comme le souligne Subbarao Kambhampati, « si les modèles continuent à invoquer le cinquième amendement, ils ne peuvent pas se tromper, mais ils deviendront inutiles ». Face à des coûts croissants, des retours décroissants et une faible volonté de payer (seulement 5 % des utilisateurs d’OpenAI souscrivent au forfait mensuel), aucune entreprise ne veut être la première à briser la norme. La vérité, donc, reste au cœur du dilemme : une IA honnête pourrait être moins engageante, mais elle serait aussi bien plus utile à long terme.
