HyperAIHyperAI

Command Palette

Search for a command to run...

Hierarchische Budget-Richtlinien-Optimierung für adaptives Reasoning

Shangke Lyu Linjuan Wu Yuchen Yan Xingyu Wu Hao Li Yongliang Shen Peisheng Jiang Weiming Lu Jun Xiao Yueting Zhuang

Zusammenfassung

Große Reasoning-Modelle erzielen bemerkenswerte Leistungen durch umfangreiche Ketten-des-Verstandes-Generierung, zeigen jedoch erhebliche Rechenun-effizienz, da sie universelle Reasoning-Strategien anwenden, unabhängig von der Problemkomplexität. Wir präsentieren Hierarchical Budget Policy Optimization (HBPO), ein Rahmenwerk des Verstärkenden Lernens, das Modellen ermöglicht, problem-spezifische Reasoning-Tiefe zu lernen, ohne dabei ihre Fähigkeiten zu verlieren. HBPO löst das grundlegende Problem der Zusammenbruch des Erkundungsraums bei effizienzorientiertem Training, bei dem Strafen für lange Ausgabeneingaben die Modelle systematisch von notwendigen langen Reasoning-Pfaden fernhalten. Durch hierarchische Budget-Erkundung unterteilt unser Ansatz Rollout-Beispiele in mehrere Untergruppen mit unterschiedlichen Token-Budgets, um eine effiziente Ressourcenverteilung zu ermöglichen und gleichzeitig die Degradation der Fähigkeiten zu verhindern. Wir führen differenzierte Belohnungsmechanismen ein, die budgetbewusste Anreize schaffen, die mit der Komplexität des Problems abgestimmt sind, wodurch Modelle in der Lage sind, natürliche Korrespondenzen zwischen Aufgabenanforderungen und Rechenaufwand zu erkennen. Umfassende Experimente zeigen, dass HBPO die durchschnittliche Token-Nutzung um bis zu 60,6 % reduziert, während die Genauigkeit auf vier Reasoning-Benchmarks um 3,14 % gesteigert wird. Im Gegensatz zu bestehenden Methoden, die externe Einschränkungen vorschreiben oder auf diskrete Modusauswahl angewiesen sind, zeigt HBPO emergente anpassungsfähige Verhaltensweisen, bei denen Modelle die Reasoning-Tiefe automatisch an die Problemkomplexität anpassen. Unsere Ergebnisse deuten darauf hin, dass Reasoning-Effizienz und -Fähigkeit nicht zwangsläufig im Widerspruch zueinander stehen und durch angemessen strukturiertes hierarchisches Training gleichzeitig optimiert werden können, das die Erkundungsvielfalt bewahrt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp