HyperAIHyperAI

Command Palette

Search for a command to run...

Phasenbezogener Policy-Gradient

Karl Cobbe Jacob Hilton Oleg Klimov John Schulman

Zusammenfassung

Wir stellen Phasic Policy Gradient (PPG) vor, einen Rahmen für Verstärkendes Lernen, der traditionelle on-policy Actor-Critic-Methoden durch die Aufteilung der Optimierung von Politik- und Wertefunktion in zwei getrennte Phasen modifiziert. Bei früheren Ansätzen musste man zwischen der Verwendung eines gemeinsamen Netzwerks oder getrennter Netzwerke zur Darstellung der Politik und der Wertefunktion wählen. Die Verwendung getrennter Netzwerke vermeidet Störungen zwischen den Zielen, während die Nutzung eines gemeinsamen Netzwerks nützliche Merkmale ermöglicht, die gemeinsam genutzt werden können. PPG erreicht das Beste aus beiden Welten, indem die Optimierung in zwei Phasen aufgeteilt wird: eine Phase, die die Weiterentwicklung des Lernprozesses vorantreibt, und eine zweite Phase, in der Merkmale verdichtet (distilliert) werden. Zudem ermöglicht PPG eine agressivere Optimierung der Wertefunktion mit einer höheren Wiederverwendung von Beispielen. Im Vergleich zu PPO zeigen wir, dass PPG die Stichproben-Effizienz erheblich auf dem anspruchsvollen Procgen-Benchmark verbessert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp