Les modèles de raisonnement sont-ils plus sujets à l'hallucination ?

Les modèles de raisonnement de grande taille (LRM) récemment développés montrent des performances puissantes dans la résolution de tâches complexes grâce à leur capacité de raisonnement en chaîne de pensée (CoT). Comme ces LRM sont principalement développés par un entraînement postérieur sur des tâches de raisonnement formel, il reste incertain et débattu qu'ils généralisent cette capacité de raisonnement pour réduire les hallucinations dans les tâches factuelles. Par exemple, DeepSeek-R1 rapporte une amélioration des performances sur SimpleQA, un benchmark factuel, tandis qu'OpenAI-o3 observe des hallucinations encore plus sévères. Cette discordance soulève naturellement la question suivante : Les modèles de raisonnement sont-ils plus enclins aux hallucinations ? Cet article aborde cette question sous trois angles.(1) Nous menons d'abord une évaluation globale des hallucinations dans les LRM. Notre analyse révèle que les LRM qui subissent un processus complet d'entraînement postérieur, incluant un ajustement fin supervisé (SFT) à froid et un apprentissage par renforcement (RL) avec une récompense vérifiable, atténuent généralement leurs hallucinations. En revanche, l'utilisation seule de la distillation et l'entraînement RL sans ajustement fin à froid introduisent des hallucinations plus subtiles.(2) Pour explorer pourquoi différents processus d'entraînement postérieur modifient l'impact des hallucinations dans les LRM, nous effectuons une analyse comportementale. Nous identifions deux comportements cognitifs critiques qui affectent directement la véracité d'un LRM : la Répétition de Défauts, où les tentatives de raisonnement superficiel suivent répétitivement la même logique sous-jacente défectueuse, et le Désaccord entre Pensée et Réponse, où la réponse finale ne correspond pas fidèlement au processus CoT précédent.(3) En outre, nous examinons le mécanisme derrière les hallucinations des LRM sous l'angle de l'incertitude du modèle. Nous constatons que l'augmentation des hallucinations chez les LRM est généralement associée au désalignement entre l'incertitude du modèle et la précision factuelle. Notre travail fournit une compréhension initiale des hallucinations dans les LRM.