HiPO: Hybride Politikoptimierung für dynamisches Denken in LLMs

Abstract
Große Sprachmodelle (LLMs) stützen sich zunehmend auf Chain-of-Thought-(CoT)-Schlussfolgerung, um die Genauigkeit bei komplexen Aufgaben zu verbessern. Allerdings ist die stets lange Generierung von Schlussfolgerungstraces ineffizient und führt zu übermäßiger Token-Nutzung sowie höheren Inferenzkosten. In dieser Arbeit stellen wir den Hybrid Policy Optimization-Ansatz (HiPO) vor, einen Rahmen für adaptives Schlussfolgerungssteuern, der es LLMs ermöglicht, selektiv zu entscheiden, wann eine detaillierte Schlussfolgerung (Think-on) und wann eine direkte Antwort (Think-off) sinnvoll ist. Insbesondere kombiniert HiPO eine hybride Datenpipeline, die paare von Think-on- und Think-off-Antworten bereitstellt, mit einem hybriden Verstärkungslern-Prämiensystem, das Genauigkeit und Effizienz ausbalanciert und eine übermäßige Abhängigkeit von detaillierter Schlussfolgerung vermeidet. Experimente an mathematischen und programmiersprachlichen Benchmarks zeigen, dass HiPO die Token-Länge erheblich reduzieren kann, ohne die Genauigkeit zu beeinträchtigen – im Gegenteil, sie kann sogar verbessert werden. Schließlich hoffen wir, dass HiPO ein konsistenter Ansatz für effizientes adaptives Schlussfolgern darstellt und die Anwendung von auf Schlussfolgerung ausgerichteten LLMs in realen, ressourcensensitiven Umgebungen voranbringt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.