HyperAIHyperAI

Command Palette

Search for a command to run...

Stetige Steuerung mit tiefem Reinforcement Learning

Timothy P. Lillicrap; Jonathan J. Hunt; Alexander Pritzel; Nicolas Heess; Tom Erez; Yuval Tassa; David Silver; Daan Wierstra

Zusammenfassung

Wir übertragen die Ideen, die dem Erfolg des Deep Q-Learnings zugrunde liegen, auf den kontinuierlichen Aktionenbereich. Wir stellen einen Schauspieler-Kritiker-, modellfreien Algorithmus vor, der auf dem deterministischen Politikgradienten basiert und in kontinuierlichen Aktionenräumen arbeiten kann. Mit demselben Lernalgorithmus, Netzwerkarchitektur und Hyperparametern löst unser Algorithmus robust mehr als 20 simulierte Physikaufgaben, darunter klassische Probleme wie das Pendel-Aufhängen am Wagen (Cartpole Swing-Up), feingliedrige Manipulation, Beinfortbewegung und Autofahren. Unser Algorithmus ist in der Lage, Politiken zu finden, deren Leistung mit denen vergleichbar ist, die von einem Planungsalgorithmus gefunden werden, der vollständigen Zugang zu den Dynamiken des Bereichs und dessen Ableitungen hat. Darüber hinaus zeigen wir, dass für viele der Aufgaben der Algorithmus Politiken von Anfang bis Ende lernen kann: direkt aus rohen Pixeleingaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp