HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-Pass Q-Netzwerke für Deep Reinforcement Learning mit parametrisierten Aktionenbereichen

Craig J. Bester; Steven D. James; George D. Konidaris

Zusammenfassung

Parameterisierte Aktionen im Reinforcement Learning bestehen aus diskreten Aktionen mit kontinuierlichen Aktionparametern. Dies bietet einen Rahmen zur Lösung komplexer Domains, die das Kombinieren von hochstufigen Aktionen mit flexibler Steuerung erfordern. Der neu entwickelte P-DQN-Algorithmus erweitert Deep Q-Networks, um über solche Aktionräume zu lernen. Allerdings behandelt er alle Aktionparameter als eine einzelne gemeinsame Eingabe für das Q-Netzwerk, was seine theoretischen Grundlagen ungültig macht. Wir analysieren die Probleme dieses Ansatzes und schlagen eine neue Methode vor: Multi-Pass Deep Q-Networks (MP-DQN). In empirischen Studien zeigen wir, dass MP-DQN hinsichtlich der Dateneffizienz und der Leistung der konvergierten Politik in den Domains Plattform, Roboterfußballtor und Halbes Feldangriffsignal erheblich besser abschneidet als P-DQN und andere frühere Algorithmen.请注意,"Halbes Feldangriffsignal" 这个术语在德语中并不常见,因此保留了 "Half Field Offense" 的原始形式,并在括号中标注了原文。如果需要进一步调整,请告知。


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp