DNA: Proximal Policy Optimization mit einer Dual-Netzwerk-Architektur

Diese Arbeit untersucht das Problem der gleichzeitigen Lernung einer Wertefunktion und einer Politik in tiefen Actor-Critic-Verstärkungslernmodellen. Wir stellen fest, dass die übliche Praxis, diese beiden Funktionen gemeinsam zu lernen, suboptimal ist, da zwischen diesen beiden Aufgaben eine Größenordnung Unterschied im Rauschniveau besteht. Stattdessen zeigen wir, dass die unabhängige Lernung dieser Aufgaben, jedoch mit einer eingeschränkten Ausbildungsschicht (distillation phase), die Leistung erheblich verbessert. Darüber hinaus stellen wir fest, dass die Rauschintensität des Policy-Gradienten durch die Verwendung einer Rückkehrschätzung mit geringerer Varianz verringert werden kann, während die Rauschintensität der Wertelernung mit einer Schätzung niedrigerer Verzerrung abnimmt. Diese Erkenntnisse führen zu einer Erweiterung des Proximal Policy Optimization-Verfahrens, die wir Dual Network Architecture (DNA) nennen, das die Leistung seines Vorgängers erheblich übertrifft. DNA erreicht zudem eine bessere Leistung als das populäre Rainbow DQN-Verfahren in vier von fünf getesteten Umgebungen, selbst unter schwierigeren stochastischen Steuerungsszenarien.