HyperAIHyperAI

Command Palette

Search for a command to run...

DNA: Proximal Policy Optimization mit einer Dual-Netzwerk-Architektur

Matthew Aitchison Penny Sweetser

Zusammenfassung

Diese Arbeit untersucht das Problem der gleichzeitigen Lernung einer Wertefunktion und einer Politik in tiefen Actor-Critic-Verstärkungslernmodellen. Wir stellen fest, dass die übliche Praxis, diese beiden Funktionen gemeinsam zu lernen, suboptimal ist, da zwischen diesen beiden Aufgaben eine Größenordnung Unterschied im Rauschniveau besteht. Stattdessen zeigen wir, dass die unabhängige Lernung dieser Aufgaben, jedoch mit einer eingeschränkten Ausbildungsschicht (distillation phase), die Leistung erheblich verbessert. Darüber hinaus stellen wir fest, dass die Rauschintensität des Policy-Gradienten durch die Verwendung einer Rückkehrschätzung mit geringerer Varianz verringert werden kann, während die Rauschintensität der Wertelernung mit einer Schätzung niedrigerer Verzerrung abnimmt. Diese Erkenntnisse führen zu einer Erweiterung des Proximal Policy Optimization-Verfahrens, die wir Dual Network Architecture (DNA) nennen, das die Leistung seines Vorgängers erheblich übertrifft. DNA erreicht zudem eine bessere Leistung als das populäre Rainbow DQN-Verfahren in vier von fünf getesteten Umgebungen, selbst unter schwierigeren stochastischen Steuerungsszenarien.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp