OpenAI attribue les hallucinations des LLM à leur surconfiance
Les hallucinations des modèles de langage à grande échelle (LLM) restent l’un des principaux défis de l’intelligence artificielle, malgré les progrès significatifs réalisés depuis le lancement de ChatGPT il y a près de trois ans. Ces hallucinations se produisent lorsque le modèle génère des informations fausses ou inexactes qu’il présente comme véritables, soit en contradiction avec les faits connus, soit en s’écartant du contexte fourni par l’utilisateur. Bien que les LLM produisent désormais bien moins d’erreurs qu’auparavant, la cause profonde de ces dérives reste mal comprise, ce qui empêche leur éradication complète. OpenAI explore une hypothèse révolutionnaire : l’excès de confiance pourrait être à la racine de ces hallucinations. Selon cette théorie, les modèles tendent à afficher une certitude excessive dans leurs réponses, même lorsqu’ils sont incertains ou mal informés. Cette surconfiance, souvent exprimée par une probabilité élevée attribuée à une réponse erronée, pousse le modèle à produire des déclarations catégoriques qui semblent crédibles mais sont fausses. En d’autres termes, ce n’est pas seulement une erreur de mémoire ou de compréhension, mais une erreur de confiance. Pour combattre ce phénomène, OpenAI propose une nouvelle approche : récompenser l’humilité des modèles. Plutôt que de récompenser uniquement la précision ou la fluidité des réponses, les chercheurs expérimentent des systèmes de récompense qui valorisent les réponses hésitantes ou les déclarations d’incertitude quand le modèle ne dispose pas d’informations suffisantes. Par exemple, si une question dépasse les connaissances du modèle, il serait mieux récompensé en disant « Je ne sais pas » ou « Je ne suis pas certain », plutôt qu’en inventant une réponse convaincante mais fausse. Cette stratégie repose sur une idée simple mais puissante : en apprenant à reconnaître ses limites, un modèle devient plus fiable. L’humilité, loin d’être une faiblesse, devient une qualité essentielle pour la fiabilité des LLM. Des expérimentations préliminaires montrent que cette approche réduit significativement le nombre de hallucinations, sans sacrifier la qualité globale des réponses. Cette avancée soulève des questions importantes sur la conception des systèmes d’apprentissage par renforcement, où l’objectif n’est plus seulement de maximiser la précision, mais aussi de favoriser une conscience de soi chez les modèles. Cela ouvre la voie à des LLM plus transparents, plus responsables, et mieux adaptés à des usages critiques comme la santé, le droit ou l’éducation. En somme, OpenAI suggère que la clé pour réduire les hallucinations ne réside pas seulement dans des données plus vastes ou des architectures plus complexes, mais dans une réforme de la manière dont les modèles sont entraînés à évaluer leur propre incertitude. En apprenant à être plus humbles, les LLM pourraient devenir des outils bien plus fiables, et donc plus utiles, dans notre monde numérique en constante évolution.
