vor 17 Tagen

RE-IMAGINE: Symbolische Benchmark-Synthese für die Bewertung von Schlussfolgerungen

Xu, Xinnuo ; Lawrence, Rachel ; Dubey, Kshitij ; Pandey, Atharva ; Ueno, Risa ; Falck, Fabian ; Nori, Aditya V. ; Sharma, Rahul ; Sharma, Amit ; Gonzalez, Javier

Details der Forschungsarbeit anzeigen

RE-IMAGINE: Symbolische Benchmark-Synthese für die Bewertung von Schlussfolgerungen

Abstract

Kürzlich haben große Sprachmodelle (LLMs) hohe Genauigkeitsraten bei Reasoning-Benchmarks gemeldet. Es ist jedoch noch unklar, ob die beobachteten Ergebnisse auf echtem Denkvermögen oder auf der statistischen Wiederholung des Trainingsdatensatzes beruhen. Inspiriert durch die Kausalladder (Pearl, 2009) und ihre drei Ebenen (Assoziationen, Interventionen und kontrafaktische Aussagen), stellt dieser Artikel RE-IMAGINE vor, ein Framework zur Charakterisierung einer Hierarchie des Denkvermögens in LLMs, sowie eine automatisierte Pipeline zur Generierung von Problemvariationen auf verschiedenen Ebenen dieser Hierarchie. Durch die Veränderung von Problemen in einer intermediären symbolischen Darstellung erzeugt RE-IMAGINE beliebig viele Probleme, die allein durch Memorieren nicht lösbar sind. Des Weiteren ist das Framework allgemein und kann über verschiedene Reasoning-Domains hinweg angewendet werden, einschließlich Mathematik, Programmierung und Logik. Wir demonstrieren unser Framework anhand vier weit verbreiteter Benchmarks zur Evaluierung verschiedener Familien von LLMs und beobachten Leistungsabfälle, wenn die Modelle mit Problemvariationen abgefragt werden. Diese Bewertungen deuten auf einen gewissen Grad der Abhängigkeit von statistischer Wiederholung für vergangene Leistungen hin und öffnen somit die Tür für weitere Forschungen, die sich auf Fähigkeiten entlang der Reasoning-Hierarchie konzentrieren.