HyperAIHyperAI
vor 17 Tagen

GDI: Die Neubewertung dessen, was die Unterscheidung zwischen Verstärkendem Lernen und Überwachtem Lernen ausmacht

{Anonymous}
Abstract

Der Deep Q Network (DQN) hat erstmals die Tür zur tiefen Verstärkungslernung (DRL) geöffnet, indem er tiefe Lernverfahren (DL) mit Verstärkungslernverfahren (RL) kombinierte. Dabei wurde erstmals erkannt, dass die Verteilung der gesammelten Daten während des Trainingsprozesses verändert wird. DQN erkannte, dass diese Eigenschaft zu Instabilitäten im Training führen kann, und entwickelte daher effektive Methoden, um die negativen Auswirkungen dieser Eigenschaft zu bewältigen. Anstatt sich ausschließlich auf die nachteiligen Aspekte zu konzentrieren, betrachten wir es als entscheidend für RL, die Lücke zwischen der geschätzten Datenverteilung und der tatsächlichen (ground truth) Datenverteilung zu verringern – ein Ziel, das das überwachte Lernen (SL) nicht erreicht. Aus dieser neuen Perspektive erweitern wir das grundlegende Paradigma des RL, die sogenannte verallgemeinerte Politik-Iteration (Generalized Policy Iteration, GPI), zu einer allgemeineren Form, die wir Generalized Data Distribution Iteration (GDI) nennen. Wir zeigen, dass eine Vielzahl von RL-Algorithmen und -Techniken in das GDI-Paradigma integriert werden kann, das als Spezialfall von GDI angesehen werden kann. Wir liefern theoretische Beweise dafür, warum GDI gegenüber GPI überlegen ist und wie es funktioniert. Mehrere praktische Algorithmen basierend auf GDI wurden vorgestellt, um dessen Wirksamkeit und Allgemeingültigkeit zu verifizieren. Empirische Experimente bestätigen unsere state-of-the-art (SOTA)-Leistung im Arcade Learning Environment (ALE), wobei unser Algorithmus einen durchschnittlichen menschlichen Normalisierungsscore (mean human normalized score, HNS) von 9620,98 %, einen Median-HNS von 1146,39 % und 22 Durchbrüche menschlicher Weltrekorde (human world record breakthroughs, HWRB) erreichte – und das nur mit 200 Mio. Trainingsframes. Unser Werk zielt darauf ab, die RL-Forschung auf den Weg zu führen, menschliche Weltrekorde zu überwinden, und nach echten übermenschlichen Agenten hinsichtlich sowohl Leistung als auch Effizienz zu suchen.