HyperAI

Große Sprachmodelle (LLMs) stützen sich zunehmend auf Chain-of-Thought-(CoT)-Schlussfolgerung, um die Genauigkeit bei komplexen Aufgaben zu verbessern. Allerdings ist die stets lange Generierung von Schlussfolgerungstraces ineffizient und führt zu übermäßiger Token-Nutzung sowie höheren Inferenzkosten. In dieser Arbeit stellen wir den Hybrid Policy Optimization-Ansatz (HiPO) vor, einen Rahmen für adaptives Schlussfolgerungssteuern, der es LLMs ermöglicht, selektiv zu entscheiden, wann eine detaillierte Schlussfolgerung (Think-on) und wann eine direkte Antwort (Think-off) sinnvoll ist. Insbesondere kombiniert HiPO eine hybride Datenpipeline, die paare von Think-on- und Think-off-Antworten bereitstellt, mit einem hybriden Verstärkungslern-Prämiensystem, das Genauigkeit und Effizienz ausbalanciert und eine übermäßige Abhängigkeit von detaillierter Schlussfolgerung vermeidet. Experimente an mathematischen und programmiersprachlichen Benchmarks zeigen, dass HiPO die Token-Länge erheblich reduzieren kann, ohne die Genauigkeit zu beeinträchtigen – im Gegenteil, sie kann sogar verbessert werden. Schließlich hoffen wir, dass HiPO ein konsistenter Ansatz für effizientes adaptives Schlussfolgern darstellt und die Anwendung von auf Schlussfolgerung ausgerichteten LLMs in realen, ressourcensensitiven Umgebungen voranbringt.

HiPO: Hybride Politikoptimierung für dynamisches Denken in LLMs

Ken Deng Zizheng Zhan Wen Xiang Wenqiang Zhu Weihao Li Jingxuan Xu Tianhao Peng Xinping Lei Kun Wu Yifan Yao

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

HiPO: Hybride Politikoptimierung für dynamisches Denken in LLMs

Ken Deng Zizheng Zhan Wen Xiang Wenqiang Zhu Weihao Li Jingxuan Xu Tianhao Peng Xinping Lei Kun Wu Yifan Yao18 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Ken Deng Zizheng Zhan Wen Xiang Wenqiang Zhu Weihao Li Jingxuan Xu Tianhao Peng Xinping Lei Kun Wu Yifan Yao