HyperAIHyperAI

Command Palette

Search for a command to run...

LAPO: Internalisierung der Recheneffizienz durch längeadaptive Policy-Optimierung

Xingyu Wu Yuchen Yan Shangke Lyu Linjuan Wu Yiwen Qiu Yongliang Shen Weiming Lu Jian Shao Jun Xiao Yueting Zhuang

Zusammenfassung

Große Reasoning-Modelle haben durch erweiterte Ketten-der-Denkarbeiten beeindruckende Leistungen erzielt, doch diese rechnerische Freiheit führt dazu, dass selbst für einfache Probleme zu viele Tokens generiert werden. Wir stellen Length-Adaptive Policy Optimization (LAPO) vor, einen neuen Rahmen, der die Kontrolle der Reasoning-Länge von einer externen Einschränkung in eine inhärente Modellfähigkeit verwandelt. Im Gegensatz zu bestehenden Ansätzen, die starre Grenzen vorgeben oder auf nachträgliche Eingriffe angewiesen sind, ermöglicht LAPO es Modellen, ein Verständnis für die angemessene Reasoning-Tiefe durch einen zweistufigen Prozess der Verstärkungslernen zu internalisieren. Im ersten Stadium lernen die Modelle natürliche Reasoning-Muster, indem sie die statistische Verteilung der erfolgreichen Lösungslängen erkunden. Das zweite Stadium nutzt diese Muster als metakognitive Anleitung, indem sie direkt in den Reasoning-Kontext des Modells eingebettet werden, um Flexibilität während der Inferenz sicherzustellen. Experimente an mathematischen Reasoning-Benchmarks zeigen, dass LAPO die Token-Nutzung um bis zu 40,9 % reduziert, während die Genauigkeit um 2,3 % verbessert wird. Unsere Analyse ergibt, dass Modelle, die mit LAPO trainiert wurden, emergente Fähigkeiten entwickeln, um Rechenressourcen basierend auf der Problemkomplexität zu verteilen, und somit effizientes Reasoning erzielen, ohne die Qualität zu beeinträchtigen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp