Hierarchische Budget-Richtlinien-Optimierung für adaptives Reasoning

Große Reasoning-Modelle erzielen bemerkenswerte Leistungen durch umfangreiche Ketten-des-Verstandes-Generierung, zeigen jedoch erhebliche Rechenun-effizienz, da sie universelle Reasoning-Strategien anwenden, unabhängig von der Problemkomplexität. Wir präsentieren Hierarchical Budget Policy Optimization (HBPO), ein Rahmenwerk des Verstärkenden Lernens, das Modellen ermöglicht, problem-spezifische Reasoning-Tiefe zu lernen, ohne dabei ihre Fähigkeiten zu verlieren. HBPO löst das grundlegende Problem der Zusammenbruch des Erkundungsraums bei effizienzorientiertem Training, bei dem Strafen für lange Ausgabeneingaben die Modelle systematisch von notwendigen langen Reasoning-Pfaden fernhalten. Durch hierarchische Budget-Erkundung unterteilt unser Ansatz Rollout-Beispiele in mehrere Untergruppen mit unterschiedlichen Token-Budgets, um eine effiziente Ressourcenverteilung zu ermöglichen und gleichzeitig die Degradation der Fähigkeiten zu verhindern. Wir führen differenzierte Belohnungsmechanismen ein, die budgetbewusste Anreize schaffen, die mit der Komplexität des Problems abgestimmt sind, wodurch Modelle in der Lage sind, natürliche Korrespondenzen zwischen Aufgabenanforderungen und Rechenaufwand zu erkennen. Umfassende Experimente zeigen, dass HBPO die durchschnittliche Token-Nutzung um bis zu 60,6 % reduziert, während die Genauigkeit auf vier Reasoning-Benchmarks um 3,14 % gesteigert wird. Im Gegensatz zu bestehenden Methoden, die externe Einschränkungen vorschreiben oder auf diskrete Modusauswahl angewiesen sind, zeigt HBPO emergente anpassungsfähige Verhaltensweisen, bei denen Modelle die Reasoning-Tiefe automatisch an die Problemkomplexität anpassen. Unsere Ergebnisse deuten darauf hin, dass Reasoning-Effizienz und -Fähigkeit nicht zwangsläufig im Widerspruch zueinander stehen und durch angemessen strukturiertes hierarchisches Training gleichzeitig optimiert werden können, das die Erkundungsvielfalt bewahrt.