HyperAIHyperAI

Command Palette

Search for a command to run...

OpenAI révèle la vraie raison des hallucinations des modèles linguistiques

Une vérité universellement reconnue est que toute entreprise spécialisée en intelligence artificielle, dotée d’un puissant cluster de GPU, ne peut s’empêcher de chercher à résoudre le problème des hallucinations. Et pour cause : celui qui parviendra à créer un chatbot capable de reconnaître ses limites — c’est-à-dire de ne pas inventer des informations lorsqu’il ne sait pas — pourra s’emparer d’une couronne précieuse : celle du marché le plus prometteur de l’ère moderne. Pourtant, trois ans après le lancement de ChatGPT par OpenAI, les progrès restent modestes. Les taux d’erreurs persistent, bien au-delà du seuil acceptable pour intégrer l’IA dans des processus critiques de l’économie. Pourquoi les modèles linguistiques hallucinent-ils, et pourquoi cette problématique résiste-t-elle si longtemps à une solution ? C’est précisément OpenAI qui pourrait avoir trouvé une réponse fondamentale. Dans un tout nouveau papier de recherche publié la semaine dernière, intitulé Pourquoi les modèles linguistiques hallucinent, les auteurs avancent une thèse radicale : les modèles linguistiques hallucinent parce que les méthodes classiques d’entraînement et d’évaluation récompensent le devinage plutôt que l’admission de l’incertitude. Cette idée n’est pas entièrement nouvelle — plusieurs chercheurs ont déjà souligné que les modèles ont tendance à « deviner » pour fournir une réponse, même quand ils n’en ont pas la certitude. Mais ce qui est novateur, c’est la manière dont OpenAI l’illustre : les modèles sont entraînés pour maximiser le nombre de bonnes réponses, sans distinction entre une réponse juste obtenue par connaissance et une réponse erronée mais plausible. En d’autres termes, un modèle qui répond « Paris » à la question « Quelle est la capitale de la France ? » gagne une récompense, tout comme un modèle qui répond « Rome » par hasard, à condition que cette réponse soit incluse dans une liste de choix. C’est cette dynamique qui pousse les modèles à privilégier le devinage, même quand ils ne sont pas sûrs. Ils ne sont pas « malades » — ils sont simplement formés dans un cadre où le silence ou l’admission d’ignorance est pénalisé. Comme un élève qui, face à un QCM, choisit toujours une réponse plutôt que de laisser vide la case, le modèle linguistique a appris à répondre à tout prix. L’essence du problème réside donc dans un décalage fondamental entre les objectifs d’entraînement et les exigences réelles d’un système fiable. Pour résoudre cela, OpenAI propose de repenser à la fois l’entraînement et l’évaluation : en récompensant non pas seulement la justesse, mais aussi la capacité à reconnaître quand une réponse ne peut être donnée avec confiance. Des mécanismes comme l’incitation à exprimer une probabilité de certitude, ou l’ajout de récompenses pour les réponses du type « Je ne sais pas », pourraient transformer le comportement des modèles. Si cette approche se confirme, elle marquerait une étape décisive vers des systèmes d’IA plus honnêtes, plus fiables, et enfin aptes à être utilisés dans des domaines critiques comme la médecine, le droit ou la gestion des crises. Car une IA qui sait dire « je ne sais pas » est bien plus précieuse qu’une IA qui répond toujours, même si elle se trompe.

Liens associés

OpenAI révèle la vraie raison des hallucinations des modèles linguistiques | Articles tendance | HyperAI