RE-IMAGINE : Synthèse de Benchmark Symbolique pour l'Évaluation de la Raisonnement

Les modèles de langage à grande échelle (LLMs) récents ont rapporté une précision élevée sur des benchmarks de raisonnement. Cependant, il n'est toujours pas clair si les résultats observés proviennent d'un véritable raisonnement ou d'un rappel statistique de l'ensemble d'entraînement. Inspiré par l'échelle de causalité (Pearl, 2009) et ses trois niveaux (associations, interventions et contre-factuels), cet article introduit RE-IMAGINE, un cadre permettant de caractériser une hiérarchie des capacités de raisonnement dans les LLMs, ainsi qu'une pipeline automatisée pour générer des variations de problèmes à différents niveaux de cette hiérarchie. En modifiant les problèmes dans une représentation symbolique intermédiaire, RE-IMAGINE génère un nombre arbitrairement grand de problèmes qui ne peuvent pas être résolus uniquement par la mémoire. De plus, ce cadre est général et peut s'appliquer à divers domaines de raisonnement, y compris les mathématiques, la programmation et la logique. Nous démontrons notre cadre sur quatre benchmarks largement utilisés pour évaluer plusieurs familles de LLMs, et nous observons des baisses de performance lorsque les modèles sont interrogés avec des variations de problèmes. Ces évaluations indiquent un certain niveau de dépendance au rappel statistique pour les performances passées, et ouvrent la voie à des recherches supplémentaires visant les compétences tout au long de la hiérarchie du raisonnement.