HyperAIHyperAI

Command Palette

Search for a command to run...

Wenn das Reasoning seinen Gesetzen begegnet

Junyu Zhang Yifan Sun Tianang Leng Jingyan Shen Liu Ziyin Paul Pu Liang Huan Zhang

Abstract

Trotz der überlegenen Leistung von Large Reasoning Models (LRMs) sind ihre Schlussfolgerungsverhalten oft kontraintuitiv und führen zu suboptimalen Schlussfolgerungsfähigkeiten. Um die gewünschten Schlussfolgerungsverhaltensweisen theoretisch zu formalisieren, präsentiert dieser Artikel die Laws of Reasoning (LoRe), einen einheitlichen Rahmen, der inhärente Schlussfolgerungsmuster in LRMs charakterisiert. Zunächst stellen wir das Compute-Gesetz vor, das die Hypothese aufstellt, dass der zur Schlussfolgerung benötigte Rechenaufwand linear mit der Komplexität der Frage skalieren sollte. Neben dem Rechenaufwand erweitern wir LoRe um ein zusätzliches Genauigkeitsgesetz. Da die Fragekomplexität in der Praxis schwer quantifizierbar ist, überprüfen wir diese Hypothesen anhand zweier Eigenschaften der Gesetze: Monotonie und Kompositionsalität. Daraufhin führen wir LoRe-Bench ein, eine Benchmark, die diese beiden handhabbaren Eigenschaften systematisch für große Schlussfolgerungsmodelle misst. Die Evaluation zeigt, dass die meisten Schlussfolgerungsmodelle eine angemessene Monotonie aufweisen, jedoch an Kompositionsalität mangeln. Als Antwort darauf entwickeln wir eine effektive Fine-Tuning-Methode, die die Kompositionsalität gemäß dem Compute-Gesetz erzwingt. Umfassende empirische Studien belegen, dass eine bessere Einhaltung der Compute-Gesetze konsistent verbesserte Schlussfolgerungsergebnisse auf mehreren Benchmarks liefert und synergistische Effekte zwischen den Eigenschaften und Gesetzen aufdeckt. Projektseite: https://lore-project.github.io/


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp