1000-Schicht-Netzwerke für selbstüberwachtes RL: Die Skalierung der Tiefe kann neue Fähigkeiten zur Zielerreichung ermöglichen
Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

Abstract
Die Skalierung selbstüberwachter Lernverfahren hat bahnbrechende Fortschritte in der Sprach- und Bildverarbeitung ermöglicht, während vergleichbare Fortschritte im Bereich des Verstärkungslernens (Reinforcement Learning, RL) bisher ausblieben. In diesem Artikel untersuchen wir Bausteine für selbstüberwachtes RL, die eine erhebliche Steigerung der Skalierbarkeit ermöglichen, wobei die Netzwerktiefe einen entscheidenden Faktor darstellt. Während die meisten jüngeren RL-Studien auf flache Architekturen (ca. 2–5 Schichten) zurückgreifen, zeigen wir, dass die Erhöhung der Tiefe bis zu 1024 Schichten die Leistung signifikant steigern kann. Unsere Experimente werden in einer unsupervisierten, zielbedingten Umgebung durchgeführt, bei der weder Demonstrationen noch Belohnungen zur Verfügung stehen. Dem Agenten bleibt somit nur die Exploration (von Grund auf) und die Lernung, wie er die Wahrscheinlichkeit erreichen kann, auf vorgegebene Ziele zu gelangen. Auf simulierten Aufgaben im Bereich der Lokomotion und Manipulation erhöht unser Ansatz die Leistung des selbstüberwachten kontrastiven RL-Algorithmus um das 2- bis 50-fache und übertrifft damit andere zielbedingte Baselines. Die Erhöhung der Modelltiefe steigert nicht nur die Erfolgsraten, sondern verändert auch qualitativ die gelernten Verhaltensmuster.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.