vor einem Monat

MAPO: Gemischte Vorteils-Politik-Optimierung

Wenke Huang Quan Zhang Yiyang Fang Jian Liang Xuankun Rong Huanjin Yao Guancheng Wan Ke Liang Wenwen He Mingjun Li

Abstract

Neuere Fortschritte im Bereich des Verstärkenden Lernens für Grundmodelle, wie beispielsweise die Group Relative Policy Optimization (GRPO), haben die Leistung von Grundmodellen bei Schlussfolgerungsaufgaben erheblich verbessert. Insbesondere spielt die Vorteilsfunktion in der GRPO eine zentrale Rolle bei der Bewertung der Bedeutung von Trajektorien. Allerdings treten bei bestehenden Ansätzen sowohl das Problem der Vorteilsreversion als auch das Phänomen der Vorteilsspiegelung auf, die eine sinnvolle Vorteilszuweisung über verschiedene Anfragebeispiele hinweg behindern. In dieser Arbeit stellen wir eine einfache, aber effektive GRPO-Strategie vor: die Mixed Advantage Policy Optimization (MAPO). Wir zeigen, dass Trajektorien unterschiedliche Sicherheitsgrade aufweisen, und führen die Abweichung des Vorteilsprozents für Beispiele mit hochsicheren Trajektorien ein. Zudem reweighten wir dynamisch die Vorteilsfunktion je nach Sicherheitsgrad der Trajektorien, wodurch die Vorteilsfunktion adaptiv an die spezifischen Merkmale jedes Beispiels angepasst wird. Vergleiche mit aktuellen state-of-the-art-Methoden sowie Ablationsstudien zu verschiedenen Varianten der Vorteilsfunktion bestätigen die Wirksamkeit unseres Ansatzes.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MAPO: Gemischte Vorteils-Politik-Optimierung

Wenke Huang Quan Zhang Yiyang Fang Jian Liang Xuankun Rong Huanjin Yao Guancheng Wan Ke Liang Wenwen He Mingjun Li4 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Wenke Huang Quan Zhang Yiyang Fang Jian Liang Xuankun Rong Huanjin Yao Guancheng Wan Ke Liang Wenwen He Mingjun Li