HyperAIHyperAI

Command Palette

Search for a command to run...

Lernbare Verhaltenssteuerung: Erreichen von Rekorden im Atari-Menschen-Weltbereich durch samples-effiziente Verhaltensauswahl

Jiajun Fan Yuzheng Zhuang Yuecheng Liu Jianye Hao Bin Wang Jiangcheng Zhu Hao Wang Shu-Tao Xia

Zusammenfassung

Das Erkundungsproblem stellt eine der zentralen Herausforderungen im tiefen Verstärkungslernen (Deep Reinforcement Learning, RL) dar. Kürzlich erschienene vielversprechende Arbeiten haben versucht, dieses Problem mit populationsbasierten Methoden anzugehen, bei denen Stichproben mit diversen Verhaltensweisen aus einer Population unterschiedlicher explorativer Politiken gesammelt werden. Adaptive Politikauswahl wurde zur Steuerung des Verhaltens eingesetzt. Allerdings ist der Raum der Verhaltensauswahl stark durch die vordefinierte Politikpopulation begrenzt, was die Vielfalt des Verhaltens weiter einschränkt. In diesem Artikel stellen wir einen allgemeinen Rahmen namens Learnable Behavioral Control (LBC) vor, um diese Einschränkung zu überwinden. LBC ermöglicht a) eine erhebliche Erweiterung des Verhaltensauswahlraums durch die Formulierung einer hybriden Verhaltensabbildung aus allen verfügbaren Politiken und b) die Schaffung eines einheitlichen, lernbaren Prozesses zur Verhaltensauswahl. Wir integrieren LBC in verteilte, off-policy Actor-Critic-Methoden und erreichen Verhaltenssteuerung durch Optimierung der Auswahl der Verhaltensabbildungen mittels banditbasierter Meta-Controller. Unsere Agenten erzielten eine durchschnittliche, menschliche Normalisierungsskala von 10077,52 % und überschritten innerhalb von 1 Milliarde Trainingsframes im Arcade Learning Environment 24 menschliche Weltrekorde, was unsere herausragende state-of-the-art (SOTA)-Leistung ohne Beeinträchtigung der Stichproben-Effizienz belegt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernbare Verhaltenssteuerung: Erreichen von Rekorden im Atari-Menschen-Weltbereich durch samples-effiziente Verhaltensauswahl | Paper | HyperAI