Lernbare Verhaltenssteuerung: Erreichen von Rekorden im Atari-Menschen-Weltbereich durch samples-effiziente Verhaltensauswahl

Das Erkundungsproblem stellt eine der zentralen Herausforderungen im tiefen Verstärkungslernen (Deep Reinforcement Learning, RL) dar. Kürzlich erschienene vielversprechende Arbeiten haben versucht, dieses Problem mit populationsbasierten Methoden anzugehen, bei denen Stichproben mit diversen Verhaltensweisen aus einer Population unterschiedlicher explorativer Politiken gesammelt werden. Adaptive Politikauswahl wurde zur Steuerung des Verhaltens eingesetzt. Allerdings ist der Raum der Verhaltensauswahl stark durch die vordefinierte Politikpopulation begrenzt, was die Vielfalt des Verhaltens weiter einschränkt. In diesem Artikel stellen wir einen allgemeinen Rahmen namens Learnable Behavioral Control (LBC) vor, um diese Einschränkung zu überwinden. LBC ermöglicht a) eine erhebliche Erweiterung des Verhaltensauswahlraums durch die Formulierung einer hybriden Verhaltensabbildung aus allen verfügbaren Politiken und b) die Schaffung eines einheitlichen, lernbaren Prozesses zur Verhaltensauswahl. Wir integrieren LBC in verteilte, off-policy Actor-Critic-Methoden und erreichen Verhaltenssteuerung durch Optimierung der Auswahl der Verhaltensabbildungen mittels banditbasierter Meta-Controller. Unsere Agenten erzielten eine durchschnittliche, menschliche Normalisierungsskala von 10077,52 % und überschritten innerhalb von 1 Milliarde Trainingsframes im Arcade Learning Environment 24 menschliche Weltrekorde, was unsere herausragende state-of-the-art (SOTA)-Leistung ohne Beeinträchtigung der Stichproben-Effizienz belegt.