HyperAIHyperAI

Command Palette

Search for a command to run...

RE-IMAGINE: Symbolische Benchmark-Synthese für die Bewertung von Schlussfolgerungen

Zusammenfassung

Kürzlich haben große Sprachmodelle (LLMs) hohe Genauigkeitsraten bei Reasoning-Benchmarks gemeldet. Es ist jedoch noch unklar, ob die beobachteten Ergebnisse auf echtem Denkvermögen oder auf der statistischen Wiederholung des Trainingsdatensatzes beruhen. Inspiriert durch die Kausalladder (Pearl, 2009) und ihre drei Ebenen (Assoziationen, Interventionen und kontrafaktische Aussagen), stellt dieser Artikel RE-IMAGINE vor, ein Framework zur Charakterisierung einer Hierarchie des Denkvermögens in LLMs, sowie eine automatisierte Pipeline zur Generierung von Problemvariationen auf verschiedenen Ebenen dieser Hierarchie. Durch die Veränderung von Problemen in einer intermediären symbolischen Darstellung erzeugt RE-IMAGINE beliebig viele Probleme, die allein durch Memorieren nicht lösbar sind. Des Weiteren ist das Framework allgemein und kann über verschiedene Reasoning-Domains hinweg angewendet werden, einschließlich Mathematik, Programmierung und Logik. Wir demonstrieren unser Framework anhand vier weit verbreiteter Benchmarks zur Evaluierung verschiedener Familien von LLMs und beobachten Leistungsabfälle, wenn die Modelle mit Problemvariationen abgefragt werden. Diese Bewertungen deuten auf einen gewissen Grad der Abhängigkeit von statistischer Wiederholung für vergangene Leistungen hin und öffnen somit die Tür für weitere Forschungen, die sich auf Fähigkeiten entlang der Reasoning-Hierarchie konzentrieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp