HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Tagen

1000-Schicht-Netzwerke für selbstüberwachtes RL: Die Skalierung der Tiefe kann neue Fähigkeiten zur Zielerreichung ermöglichen

Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

1000-Schicht-Netzwerke für selbstüberwachtes RL: Die Skalierung der Tiefe kann neue Fähigkeiten zur Zielerreichung ermöglichen

Abstract

Die Skalierung selbstüberwachter Lernverfahren hat bahnbrechende Fortschritte in der Sprach- und Bildverarbeitung ermöglicht, während vergleichbare Fortschritte im Bereich des Verstärkungslernens (Reinforcement Learning, RL) bisher ausblieben. In diesem Artikel untersuchen wir Bausteine für selbstüberwachtes RL, die eine erhebliche Steigerung der Skalierbarkeit ermöglichen, wobei die Netzwerktiefe einen entscheidenden Faktor darstellt. Während die meisten jüngeren RL-Studien auf flache Architekturen (ca. 2–5 Schichten) zurückgreifen, zeigen wir, dass die Erhöhung der Tiefe bis zu 1024 Schichten die Leistung signifikant steigern kann. Unsere Experimente werden in einer unsupervisierten, zielbedingten Umgebung durchgeführt, bei der weder Demonstrationen noch Belohnungen zur Verfügung stehen. Dem Agenten bleibt somit nur die Exploration (von Grund auf) und die Lernung, wie er die Wahrscheinlichkeit erreichen kann, auf vorgegebene Ziele zu gelangen. Auf simulierten Aufgaben im Bereich der Lokomotion und Manipulation erhöht unser Ansatz die Leistung des selbstüberwachten kontrastiven RL-Algorithmus um das 2- bis 50-fache und übertrifft damit andere zielbedingte Baselines. Die Erhöhung der Modelltiefe steigert nicht nur die Erfolgsraten, sondern verändert auch qualitativ die gelernten Verhaltensmuster.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
1000-Schicht-Netzwerke für selbstüberwachtes RL: Die Skalierung der Tiefe kann neue Fähigkeiten zur Zielerreichung ermöglichen | Forschungsarbeiten | HyperAI