Command Palette
Search for a command to run...

Abstract
Neuere Fortschritte im Bereich des Verstärkenden Lernens für Grundmodelle, wie beispielsweise die Group Relative Policy Optimization (GRPO), haben die Leistung von Grundmodellen bei Schlussfolgerungsaufgaben erheblich verbessert. Insbesondere spielt die Vorteilsfunktion in der GRPO eine zentrale Rolle bei der Bewertung der Bedeutung von Trajektorien. Allerdings treten bei bestehenden Ansätzen sowohl das Problem der Vorteilsreversion als auch das Phänomen der Vorteilsspiegelung auf, die eine sinnvolle Vorteilszuweisung über verschiedene Anfragebeispiele hinweg behindern. In dieser Arbeit stellen wir eine einfache, aber effektive GRPO-Strategie vor: die Mixed Advantage Policy Optimization (MAPO). Wir zeigen, dass Trajektorien unterschiedliche Sicherheitsgrade aufweisen, und führen die Abweichung des Vorteilsprozents für Beispiele mit hochsicheren Trajektorien ein. Zudem reweighten wir dynamisch die Vorteilsfunktion je nach Sicherheitsgrad der Trajektorien, wodurch die Vorteilsfunktion adaptiv an die spezifischen Merkmale jedes Beispiels angepasst wird. Vergleiche mit aktuellen state-of-the-art-Methoden sowie Ablationsstudien zu verschiedenen Varianten der Vorteilsfunktion bestätigen die Wirksamkeit unseres Ansatzes.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.