Command Palette
Search for a command to run...
PVPO: Vorabgeschätzte wertbasierte Politikoptimierung für agenteles Denken
Wenfeng Feng Penghong Zhao Guochao Jiang Chuzhan Hao Yuewei Zhang Hao Wang

Abstract
Kritikfreie Methoden des Verstärkungslernens, insbesondere Gruppenpolitiken, haben aufgrund ihrer Effizienz bei komplexen Aufgaben erhebliche Aufmerksamkeit erlangt. Allerdings beruhen diese Ansätze stark auf mehrfachen Probenahmen und Vergleichen innerhalb der Politik zur Schätzung des Vorteils, was dazu führen kann, dass die Politik in lokale Optima gerät und die Rechenkosten erhöht werden. Um diese Probleme zu bewältigen, schlagen wir PVPO vor – ein effizientes Verstärkungslernverfahren, das durch einen Vorteils-Referenzanker und Daten-Vorprobenahme verbessert wird. Konkret nutzen wir ein Referenzmodell, um im Voraus Rollouts durchzuführen und den berechneten Belohnungswert als Referenzanker zu verwenden. Unser Ansatz korrigiert effektiv die kumulative Verzerrung, die durch intra-gruppenspezifische Vergleiche entsteht, und verringert deutlich die Abhängigkeit von der Anzahl der Rollouts. Gleichzeitig kann das Referenzmodell während der Daten-Vorprobenahme die Schwierigkeit von Proben bewerten und somit gezielt hochnutzbringende Daten auswählen, was die Trainingseffizienz erhöht. Experimente an neun Datensätzen über zwei Domänen zeigen, dass PVPO eine State-of-the-Art (SOTA)-Leistung erzielt. Unser Ansatz demonstriert nicht nur eine robuste Generalisierung über mehrere Aufgaben hinweg, sondern auch skalierbare Leistung bei Modellen unterschiedlicher Größe.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.