Command Palette
Search for a command to run...
MAPO: Gemischte Vorteils-Politik-Optimierung
MAPO: Gemischte Vorteils-Politik-Optimierung
Zusammenfassung
Neuere Fortschritte im Bereich des Verstärkenden Lernens für Grundmodelle, wie beispielsweise die Group Relative Policy Optimization (GRPO), haben die Leistung von Grundmodellen bei Schlussfolgerungsaufgaben erheblich verbessert. Insbesondere spielt die Vorteilsfunktion in der GRPO eine zentrale Rolle bei der Bewertung der Bedeutung von Trajektorien. Allerdings treten bei bestehenden Ansätzen sowohl das Problem der Vorteilsreversion als auch das Phänomen der Vorteilsspiegelung auf, die eine sinnvolle Vorteilszuweisung über verschiedene Anfragebeispiele hinweg behindern. In dieser Arbeit stellen wir eine einfache, aber effektive GRPO-Strategie vor: die Mixed Advantage Policy Optimization (MAPO). Wir zeigen, dass Trajektorien unterschiedliche Sicherheitsgrade aufweisen, und führen die Abweichung des Vorteilsprozents für Beispiele mit hochsicheren Trajektorien ein. Zudem reweighten wir dynamisch die Vorteilsfunktion je nach Sicherheitsgrad der Trajektorien, wodurch die Vorteilsfunktion adaptiv an die spezifischen Merkmale jedes Beispiels angepasst wird. Vergleiche mit aktuellen state-of-the-art-Methoden sowie Ablationsstudien zu verschiedenen Varianten der Vorteilsfunktion bestätigen die Wirksamkeit unseres Ansatzes.