HyperAI

Selon des chercheurs d’OpenAI, l’une des principales causes des hallucinations dans les modèles linguistiques à grande échelle — c’est-à-dire la génération d’informations fausses présentées comme véritables — réside dans la manière dont ces modèles sont entraînés. Dans une étude publiée jeudi, les chercheurs affirment que les modèles sont systématiquement incités à deviner plutôt qu’à reconnaître leur ignorance. En d’autres termes, ils sont « récompensés pour faire semblant » même lorsqu’ils ne sont pas certains. Ce phénomène s’explique par le fait que la plupart des évaluations utilisées pour mesurer les performances des modèles linguistiques pénalisent la non-réponse ou l’admission d’incertitude. Ainsi, un modèle qui ose dire « je ne sais pas » risque de perdre des points, alors qu’un autre qui répond avec confiance, même si sa réponse est fausse, peut être considéré comme plus performant. C’est ce que les chercheurs décrivent comme un biais fondamental : les modèles sont optimisés pour être de bons « candidats aux examens », où la bonne réponse est souvent unique, alors qu’en réalité, la vie est pleine d’incertitudes. OpenAI souligne que les humains apprennent à exprimer leur incertitude au fil de l’expérience, dans la « école des durs coups ». En revanche, les modèles linguistiques sont principalement évalués par des tests rigides, où l’erreur est pénalisée, mais l’hésitation ou l’abstention l’est encore plus. C’est pourquoi, selon les chercheurs, les modèles ont tendance à « deviner » systématiquement, même quand ils n’ont pas de certitude. Des modèles comme Claude d’Anthropic semblent mieux gérer cette incertitude, selon OpenAI, en refusant plus souvent de répondre quand ils sont incertains. Toutefois, cette prudence peut limiter leur utilité pratique, car les utilisateurs attendent souvent une réponse, même partielle. La solution, selon les chercheurs, réside dans une refonte des métriques d’évaluation. « Le problème fondamental est la désalignement entre les évaluations courantes et les objectifs réels », écrivent-ils. Il faut modifier les critères de notation pour qu’ils ne récompensent plus les réponses hasardeuses. « Si les principaux tableaux de bord continuent de récompenser les bonnes réponses par hasard, les modèles continueront d’apprendre à deviner », préviennent-ils. OpenAI propose donc d’ajuster les évaluations pour qu’elles encouragent explicitement l’admission de l’incertitude, en valorisant les réponses comme « je ne sais pas » ou « je n’ai pas assez d’informations » quand cela est justifié. Cela permettrait de créer des modèles plus fiables, plus honnêtes et plus utiles dans des contextes réels où la précision n’est pas toujours accessible. En somme, les hallucinations ne sont pas un défaut technologique irrémédiable, mais le résultat d’un système d’évaluation mal conçu. Corriger ce système pourrait marquer une avancée majeure vers des IA plus responsables et plus proches des attentes humaines.

Liens associés

Liens associés

Liens associés

Command Palette

OpenAI dévoile la vraie raison pour laquelle les chatbots IA inventent des faits

Liens associés

Command Palette

OpenAI dévoile la vraie raison pour laquelle les chatbots IA inventent des faits

Liens associés

Command Palette

OpenAI dévoile la vraie raison pour laquelle les chatbots IA inventent des faits

Liens associés