HyperAIHyperAI
vor 11 Tagen

GDI: Die Neubewertung dessen, was die Unterscheidung zwischen Verstärkendem Lernen und Überwachtem Lernen ausmacht

Jiajun Fan, Changnan Xiao, Yue Huang
GDI: Die Neubewertung dessen, was die Unterscheidung zwischen Verstärkendem Lernen und Überwachtem Lernen ausmacht
Abstract

Der Deep Q Network (DQN) hat erstmals die Tür zur tiefen Verstärkungslernung (DRL) geöffnet, indem er tiefe Lernverfahren (DL) mit Verstärkungslernverfahren (RL) kombinierte. Dabei wurde erstmals erkannt, dass die Verteilung der gesammelten Daten während des Trainingsprozesses verändert wird. DQN erkannte, dass diese Eigenschaft zu Instabilitäten im Training führen könnte, und stellte daher effektive Methoden zur Bewältigung dieser Nachteile vor. Anstatt sich ausschließlich auf die negativen Aspekte dieser Veränderung zu konzentrieren, sehen wir es als entscheidend an, dass RL den Abstand zwischen der geschätzten Datensatzverteilung und der wahren (ground truth) Datensatzverteilung verringert – eine Aufgabe, die das überwachte Lernen (SL) nicht leisten kann. Aus dieser neuen Perspektive erweitern wir das grundlegende Paradigma des RL, die sogenannte verallgemeinerte Politik-Iteration (Generalized Policy Iteration, GPI), zu einer weiter gefassten Version, die wir Generalized Data Distribution Iteration (GDI) nennen. Wir zeigen, dass eine Vielzahl von RL-Algorithmen und -Techniken in das GDI-Paradigma integriert werden kann, das als ein spezieller Fall von GDI betrachtet werden kann. Wir liefern eine theoretische Begründung dafür, warum GDI besser ist als GPI, und erklären, wie es funktioniert. Mehrere praktische Algorithmen basierend auf GDI wurden vorgestellt, um die Wirksamkeit und Allgemeingültigkeit des Ansatzes zu bestätigen. Empirische Experimente belegen unsere state-of-the-art (SOTA)-Leistung im Arcade Learning Environment (ALE), bei dem unser Algorithmus einen durchschnittlichen menschlichen Normalisierungsscore (mean Human Normalized Score, HNS) von 9620,98 %, einen Median-HNS von 1146,39 % und 22 Brüche des menschlichen Weltrekords (Human World Record Breakthroughs, HWRB) erreichte – alles unter Verwendung lediglich von 200 Millionen Trainingsframes. Unsere Arbeit zielt darauf ab, die RL-Forschung auf den Weg zu führen, menschliche Weltrekorde zu überwinden, und nach echten übermenschlichen Agenten hinsichtlich sowohl Leistung als auch Effizienz zu suchen.

GDI: Die Neubewertung dessen, was die Unterscheidung zwischen Verstärkendem Lernen und Überwachtem Lernen ausmacht | Neueste Forschungsarbeiten | HyperAI