HyperAIHyperAI

Command Palette

Search for a command to run...

RE-IMAGINE : Synthèse de Benchmark Symbolique pour l'Évaluation de la Raisonnement

Résumé

Les modèles de langage à grande échelle (LLMs) récents ont rapporté une précision élevée sur des benchmarks de raisonnement. Cependant, il n'est toujours pas clair si les résultats observés proviennent d'un véritable raisonnement ou d'un rappel statistique de l'ensemble d'entraînement. Inspiré par l'échelle de causalité (Pearl, 2009) et ses trois niveaux (associations, interventions et contre-factuels), cet article introduit RE-IMAGINE, un cadre permettant de caractériser une hiérarchie des capacités de raisonnement dans les LLMs, ainsi qu'une pipeline automatisée pour générer des variations de problèmes à différents niveaux de cette hiérarchie. En modifiant les problèmes dans une représentation symbolique intermédiaire, RE-IMAGINE génère un nombre arbitrairement grand de problèmes qui ne peuvent pas être résolus uniquement par la mémoire. De plus, ce cadre est général et peut s'appliquer à divers domaines de raisonnement, y compris les mathématiques, la programmation et la logique. Nous démontrons notre cadre sur quatre benchmarks largement utilisés pour évaluer plusieurs familles de LLMs, et nous observons des baisses de performance lorsque les modèles sont interrogés avec des variations de problèmes. Ces évaluations indiquent un certain niveau de dépendance au rappel statistique pour les performances passées, et ouvrent la voie à des recherches supplémentaires visant les compétences tout au long de la hiérarchie du raisonnement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp