vor 7 Monaten

Zusammenfassung

Dieses Papier schlägt eine neuartige Architektur des tiefen Reinforcement Learnings (RL) vor, die als Value Prediction Network (VPN) bezeichnet wird und modelfreie und modellbasierte RL-Methoden in ein einziges neuronales Netzwerk integriert. Im Gegensatz zu typischen modellbasierten RL-Methoden lernt das VPN ein Dynamikmodell, dessen abstrakte Zustände darauf trainiert werden, zukünftige Werte (diskontierte Summe der Belohnungen) unter Optionenbedingungen vorherzusagen, anstatt zukünftige Beobachtungen. Unsere experimentellen Ergebnisse zeigen, dass das VPN in einer stochastischen Umgebung, in der sorgfältiges Planen erforderlich ist, aber das Aufbauen eines genauen Beobachtungsvorhersagemodells schwierig ist, gegenüber sowohl modelfreien als auch modellbasierten Baselines mehrere Vorteile bietet. Darüber hinaus übertrifft das VPN den Deep Q-Network (DQN) bei mehreren Atari-Spielen sogar mit kurzfristiger Planungsvorausschau, was sein Potenzial als neue Methode zur Lern eines guten Zustandsdarstellungs zeigt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 7 Monaten

Junhyuk Oh Satinder Singh Honglak Lee

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 7 Monaten

Junhyuk Oh Satinder Singh Honglak Lee

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Wertvorhersagenetzwerk | Paper | HyperAI

Command Palette

Wertvorhersagenetzwerk

Junhyuk Oh Satinder Singh Honglak Lee

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Wertvorhersagenetzwerk

Junhyuk Oh Satinder Singh Honglak Lee

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Wertvorhersagenetzwerk

Junhyuk Oh Satinder Singh Honglak Lee

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters