HyperAIHyperAI
vor 2 Monaten

Verteilte priorisierte Erfahrungswiederholung

Dan Horgan; John Quan; David Budden; Gabriel Barth-Maron; Matteo Hessel; Hado van Hasselt; David Silver
Verteilte priorisierte Erfahrungswiederholung
Abstract

Wir schlagen eine verteilte Architektur für tiefes Reinforcement Learning im großen Maßstab vor, die es Agenten ermöglicht, effektiv aus um Größenordnungen mehr Daten zu lernen als bisher möglich. Der Algorithmus trennt Handeln von Lernen: Die Akteure interagieren mit ihren eigenen Instanzen der Umgebung, indem sie Aktionen auf Grundlage eines gemeinsamen neuronalen Netzes auswählen, und sammeln die daraus resultierende Erfahrung in einem gemeinsamen Replay-Speicher. Der Lerner reproduziert Stichproben der Erfahrung und aktualisiert das neuronale Netzwerk. Die Architektur stützt sich auf priorisierte Replay-Erfahrung, um sich ausschließlich auf die bedeutsamsten von den Akteuren generierten Daten zu konzentrieren. Unsere Architektur verbessert den Stand der Technik in der Arcade Learning Environment erheblich und erreicht bessere Endleistungen in einem Bruchteil der realen Trainingszeit.