HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Tagen

HiPO: Hybride Politikoptimierung für dynamisches Denken in LLMs

HiPO: Hybride Politikoptimierung für dynamisches Denken in LLMs

Abstract

Große Sprachmodelle (LLMs) stützen sich zunehmend auf Chain-of-Thought-(CoT)-Schlussfolgerung, um die Genauigkeit bei komplexen Aufgaben zu verbessern. Allerdings ist die stets lange Generierung von Schlussfolgerungstraces ineffizient und führt zu übermäßiger Token-Nutzung sowie höheren Inferenzkosten. In dieser Arbeit stellen wir den Hybrid Policy Optimization-Ansatz (HiPO) vor, einen Rahmen für adaptives Schlussfolgerungssteuern, der es LLMs ermöglicht, selektiv zu entscheiden, wann eine detaillierte Schlussfolgerung (Think-on) und wann eine direkte Antwort (Think-off) sinnvoll ist. Insbesondere kombiniert HiPO eine hybride Datenpipeline, die paare von Think-on- und Think-off-Antworten bereitstellt, mit einem hybriden Verstärkungslern-Prämiensystem, das Genauigkeit und Effizienz ausbalanciert und eine übermäßige Abhängigkeit von detaillierter Schlussfolgerung vermeidet. Experimente an mathematischen und programmiersprachlichen Benchmarks zeigen, dass HiPO die Token-Länge erheblich reduzieren kann, ohne die Genauigkeit zu beeinträchtigen – im Gegenteil, sie kann sogar verbessert werden. Schließlich hoffen wir, dass HiPO ein konsistenter Ansatz für effizientes adaptives Schlussfolgern darstellt und die Anwendung von auf Schlussfolgerung ausgerichteten LLMs in realen, ressourcensensitiven Umgebungen voranbringt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
HiPO: Hybride Politikoptimierung für dynamisches Denken in LLMs | Forschungsarbeiten | HyperAI