Menschliches Level-Steuerung durch tiefe Verstärkungslernverfahren
Die Theorie des Verstärkungslernens bietet eine normative Beschreibung dafür, wie Agenten ihre Steuerung einer Umgebung optimieren können, die tief in psychologischen und neurowissenschaftlichen Perspektiven auf das Verhalten von Tieren verwurzelt ist. Um Verstärkungslernverfahren erfolgreich in Situationen einzusetzen, die der Komplexität der realen Welt nahekommen, stehen Agenten jedoch vor einer schwierigen Aufgabe: Sie müssen effiziente Darstellungen der Umgebung aus hochdimensionalen sensorischen Eingaben ableiten und diese nutzen, um vergangene Erfahrungen auf neue Situationen zu verallgemeinern. Erstaunlicherweise scheinen Menschen und andere Tiere dieses Problem durch eine harmonische Kombination von Verstärkungslernen und hierarchischen sensorischen Verarbeitungssystemen zu lösen, wobei die erste Komponente durch eine Fülle neurobiologischer Daten belegt ist, die bemerkenswerte Parallelen zwischen den phasischen Signalen, die dopaminerge Neuronen aussenden, und Algorithmen des temporalen Differenzverstärkungslernens aufzeigen. Obwohl Verstärkungslernagenten in verschiedenen Bereichen bereits einige Erfolge erzielt haben, war ihre Anwendbarkeit bisher auf Bereiche beschränkt, in denen nützliche Merkmale von Hand konstruiert werden konnten, oder auf Bereiche mit vollständig beobachtbaren, niederdimensionalen Zustandsräumen. Hier nutzen wir jüngste Fortschritte bei der Training von tiefen neuronalen Netzen, um einen neuartigen künstlichen Agenten zu entwickeln, den wir als „Deep Q-Network“ (DQN) bezeichnen, der in der Lage ist, erfolgreiche Strategien direkt aus hochdimensionalen sensorischen Eingaben mittels end-to-end-Verstärkungslernen zu lernen. Wir testeten diesen Agenten im anspruchsvollen Bereich klassischer Atari 2600-Spiele. Wir zeigen, dass der DQN-Agent, der lediglich die Pixel und den Spielstand als Eingaben erhält, die Leistung aller vorherigen Algorithmen übertreffen und in einer Reihe von 49 Spielen ein Niveau erreichen konnte, das dem eines professionellen menschlichen Testers entspricht, und zwar mit demselben Algorithmus, derselben Netzarchitektur und denselben Hyperparametern. Diese Arbeit schließt die Kluft zwischen hochdimensionalen sensorischen Eingaben und Aktionen, wodurch erstmals ein künstlicher Agent geschaffen wurde, der lernen kann, sich in einer Vielzahl herausfordernder Aufgaben hervorragend zu behaupten.