HyperAI

Abstract

Die Skalierung selbstüberwachter Lernverfahren hat bahnbrechende Fortschritte in der Sprach- und Bildverarbeitung ermöglicht, während vergleichbare Fortschritte im Bereich des Verstärkungslernens (Reinforcement Learning, RL) bisher ausblieben. In diesem Artikel untersuchen wir Bausteine für selbstüberwachtes RL, die eine erhebliche Steigerung der Skalierbarkeit ermöglichen, wobei die Netzwerktiefe einen entscheidenden Faktor darstellt. Während die meisten jüngeren RL-Studien auf flache Architekturen (ca. 2–5 Schichten) zurückgreifen, zeigen wir, dass die Erhöhung der Tiefe bis zu 1024 Schichten die Leistung signifikant steigern kann. Unsere Experimente werden in einer unsupervisierten, zielbedingten Umgebung durchgeführt, bei der weder Demonstrationen noch Belohnungen zur Verfügung stehen. Dem Agenten bleibt somit nur die Exploration (von Grund auf) und die Lernung, wie er die Wahrscheinlichkeit erreichen kann, auf vorgegebene Ziele zu gelangen. Auf simulierten Aufgaben im Bereich der Lokomotion und Manipulation erhöht unser Ansatz die Leistung des selbstüberwachten kontrastiven RL-Algorithmus um das 2- bis 50-fache und übertrifft damit andere zielbedingte Baselines. Die Erhöhung der Modelltiefe steigert nicht nur die Erfolgsraten, sondern verändert auch qualitativ die gelernten Verhaltensmuster.

Abstract

1000-Schicht-Netzwerke für selbstüberwachtes RL: Die Skalierung der Tiefe kann neue Fähigkeiten zur Zielerreichung ermöglichen

Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

Abstract

KI mit KI entwickeln

Hyper Newsletters

1000-Schicht-Netzwerke für selbstüberwachtes RL: Die Skalierung der Tiefe kann neue Fähigkeiten zur Zielerreichung ermöglichen

Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

1000-Schicht-Netzwerke für selbstüberwachtes RL: Die Skalierung der Tiefe kann neue Fähigkeiten zur Zielerreichung ermöglichen

Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

1000-Schicht-Netzwerke für selbstüberwachtes RL: Die Skalierung der Tiefe kann neue Fähigkeiten zur Zielerreichung ermöglichen

Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

Abstract

KI mit KI entwickeln

Hyper Newsletters