LAPO: Internalisierung der Recheneffizienz durch längeadaptive Policy-Optimierung

Große Reasoning-Modelle haben durch erweiterte Ketten-der-Denkarbeiten beeindruckende Leistungen erzielt, doch diese rechnerische Freiheit führt dazu, dass selbst für einfache Probleme zu viele Tokens generiert werden. Wir stellen Length-Adaptive Policy Optimization (LAPO) vor, einen neuen Rahmen, der die Kontrolle der Reasoning-Länge von einer externen Einschränkung in eine inhärente Modellfähigkeit verwandelt. Im Gegensatz zu bestehenden Ansätzen, die starre Grenzen vorgeben oder auf nachträgliche Eingriffe angewiesen sind, ermöglicht LAPO es Modellen, ein Verständnis für die angemessene Reasoning-Tiefe durch einen zweistufigen Prozess der Verstärkungslernen zu internalisieren. Im ersten Stadium lernen die Modelle natürliche Reasoning-Muster, indem sie die statistische Verteilung der erfolgreichen Lösungslängen erkunden. Das zweite Stadium nutzt diese Muster als metakognitive Anleitung, indem sie direkt in den Reasoning-Kontext des Modells eingebettet werden, um Flexibilität während der Inferenz sicherzustellen. Experimente an mathematischen Reasoning-Benchmarks zeigen, dass LAPO die Token-Nutzung um bis zu 40,9 % reduziert, während die Genauigkeit um 2,3 % verbessert wird. Unsere Analyse ergibt, dass Modelle, die mit LAPO trainiert wurden, emergente Fähigkeiten entwickeln, um Rechenressourcen basierend auf der Problemkomplexität zu verteilen, und somit effizientes Reasoning erzielen, ohne die Qualität zu beeinträchtigen.