HyperAIHyperAI

Command Palette

Search for a command to run...

1000-Schicht-Netzwerke für selbstüberwachtes RL: Die Skalierung der Tiefe kann neue Fähigkeiten zur Zielerreichung ermöglichen

Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

Abstract

Die Skalierung selbstüberwachter Lernverfahren hat bahnbrechende Fortschritte in der Sprach- und Bildverarbeitung ermöglicht, während vergleichbare Fortschritte im Bereich des Verstärkungslernens (Reinforcement Learning, RL) bisher ausblieben. In diesem Artikel untersuchen wir Bausteine für selbstüberwachtes RL, die eine erhebliche Steigerung der Skalierbarkeit ermöglichen, wobei die Netzwerktiefe einen entscheidenden Faktor darstellt. Während die meisten jüngeren RL-Studien auf flache Architekturen (ca. 2–5 Schichten) zurückgreifen, zeigen wir, dass die Erhöhung der Tiefe bis zu 1024 Schichten die Leistung signifikant steigern kann. Unsere Experimente werden in einer unsupervisierten, zielbedingten Umgebung durchgeführt, bei der weder Demonstrationen noch Belohnungen zur Verfügung stehen. Dem Agenten bleibt somit nur die Exploration (von Grund auf) und die Lernung, wie er die Wahrscheinlichkeit erreichen kann, auf vorgegebene Ziele zu gelangen. Auf simulierten Aufgaben im Bereich der Lokomotion und Manipulation erhöht unser Ansatz die Leistung des selbstüberwachten kontrastiven RL-Algorithmus um das 2- bis 50-fache und übertrifft damit andere zielbedingte Baselines. Die Erhöhung der Modelltiefe steigert nicht nur die Erfolgsraten, sondern verändert auch qualitativ die gelernten Verhaltensmuster.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
1000-Schicht-Netzwerke für selbstüberwachtes RL: Die Skalierung der Tiefe kann neue Fähigkeiten zur Zielerreichung ermöglichen | Papers | HyperAI