vor 11 Tagen

Phasenbezogener Policy-Gradient

Karl Cobbe, Jacob Hilton, Oleg Klimov, John Schulman

Abstract

Wir stellen Phasic Policy Gradient (PPG) vor, einen Rahmen für Verstärkendes Lernen, der traditionelle on-policy Actor-Critic-Methoden durch die Aufteilung der Optimierung von Politik- und Wertefunktion in zwei getrennte Phasen modifiziert. Bei früheren Ansätzen musste man zwischen der Verwendung eines gemeinsamen Netzwerks oder getrennter Netzwerke zur Darstellung der Politik und der Wertefunktion wählen. Die Verwendung getrennter Netzwerke vermeidet Störungen zwischen den Zielen, während die Nutzung eines gemeinsamen Netzwerks nützliche Merkmale ermöglicht, die gemeinsam genutzt werden können. PPG erreicht das Beste aus beiden Welten, indem die Optimierung in zwei Phasen aufgeteilt wird: eine Phase, die die Weiterentwicklung des Lernprozesses vorantreibt, und eine zweite Phase, in der Merkmale verdichtet (distilliert) werden. Zudem ermöglicht PPG eine agressivere Optimierung der Wertefunktion mit einer höheren Wiederverwendung von Beispielen. Im Vergleich zu PPO zeigen wir, dass PPG die Stichproben-Effizienz erheblich auf dem anspruchsvollen Procgen-Benchmark verbessert.