Command Palette
Search for a command to run...
R-Horizont: Wie weit kann Ihr großes Schlussfolgerungsmodell wirklich in Breite und Tiefe gehen?
Yi Lu Jianing Wang Linsen Guo Wei He Hongyin Tang Tao Gui Xuanjing Huang Xuezhi Cao Wei Wang Xunliang Cai

Abstract
Neue Entwicklungen im Bereich der Testzeit-Skalierung von Schlussfolgerungsmodellen (z. B. OpenAI o1, DeepSeek-R1) haben durch längere Chain-of-Thought (CoT)-Abläufe erhebliche Fortschritte ermöglicht. Allerdings konzentrieren sich bestehende Benchmark-Datenstrukturen hauptsächlich auf sofortige, einstufige Aufgaben und können somit die Fähigkeit von Modellen zur Bewältigung komplexer, langfristiger Szenarien nicht ausreichend bewerten. Um diese Lücke bei der Evaluation großer Schlussfolgerungsmodelle (Large Reasoning Models, LRMs) zu schließen, stellen wir R-HORIZON vor – eine Methode, die darauf abzielt, langfristiges Schlussfolgern in LRMs durch gezielte Query-Komposition zu fördern. Auf Basis von R-HORIZON entwickeln wir einen Benchmark für langfristige Schlussfolgerung, der komplexe, mehrstufige Aufgaben mit wechselseitig abhängigen Problemen umfasst, die sich über lange Schlussfolgerungshorizonte erstrecken. Eine umfassende Evaluation von LRMs mittels des R-HORIZON-Benchmarks zeigt, dass selbst die fortschrittlichsten Modelle erhebliche Leistungseinbußen aufweisen. Unsere Analyse offenbart, dass LRMs eine begrenzte effektive Schlussfolgerungslänge besitzen und Schwierigkeiten haben, ihre kognitiven Ressourcen („Thinking Budget“) angemessen über mehrere Probleme hinweg zu verteilen. Unter Berücksichtigung dieser Einschränkungen nutzen wir R-HORIZON, um langfristige Schlussfolgerungsdaten für das Verstärkungslernen mit verifizierten Belohnungen (Reinforcement Learning with Verified Rewards, RLVR) zu generieren. Im Vergleich zur Ausbildung mit einstufigen Daten führt RLVR mit R-HORIZON nicht nur zu einer signifikanten Verbesserung der Leistung bei mehrstufigen Schlussfolgerungsaufgaben, sondern auch zu einer erhöhten Genauigkeit bei klassischen Schlussfolgerungsaufgaben – mit einem Anstieg um 7,5 auf AIME2024. Diese Ergebnisse positionieren R-HORIZON als skalierbare, kontrollierbare und kosteneffiziente Methode zur Verbesserung und Evaluation der langfristigen Schlussfolgerungsfähigkeiten von LRMs.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.