HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

MAPO: Gemischte Vorteils-Politik-Optimierung

MAPO: Gemischte Vorteils-Politik-Optimierung

Abstract

Neuere Fortschritte im Bereich des Verstärkenden Lernens für Grundmodelle, wie beispielsweise die Group Relative Policy Optimization (GRPO), haben die Leistung von Grundmodellen bei Schlussfolgerungsaufgaben erheblich verbessert. Insbesondere spielt die Vorteilsfunktion in der GRPO eine zentrale Rolle bei der Bewertung der Bedeutung von Trajektorien. Allerdings treten bei bestehenden Ansätzen sowohl das Problem der Vorteilsreversion als auch das Phänomen der Vorteilsspiegelung auf, die eine sinnvolle Vorteilszuweisung über verschiedene Anfragebeispiele hinweg behindern. In dieser Arbeit stellen wir eine einfache, aber effektive GRPO-Strategie vor: die Mixed Advantage Policy Optimization (MAPO). Wir zeigen, dass Trajektorien unterschiedliche Sicherheitsgrade aufweisen, und führen die Abweichung des Vorteilsprozents für Beispiele mit hochsicheren Trajektorien ein. Zudem reweighten wir dynamisch die Vorteilsfunktion je nach Sicherheitsgrad der Trajektorien, wodurch die Vorteilsfunktion adaptiv an die spezifischen Merkmale jedes Beispiels angepasst wird. Vergleiche mit aktuellen state-of-the-art-Methoden sowie Ablationsstudien zu verschiedenen Varianten der Vorteilsfunktion bestätigen die Wirksamkeit unseres Ansatzes.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MAPO: Gemischte Vorteils-Politik-Optimierung | Forschungsarbeiten | HyperAI