Multi-Pass Q-Netzwerke für Deep Reinforcement Learning mit parametrisierten Aktionenbereichen

Parameterisierte Aktionen im Reinforcement Learning bestehen aus diskreten Aktionen mit kontinuierlichen Aktionparametern. Dies bietet einen Rahmen zur Lösung komplexer Domains, die das Kombinieren von hochstufigen Aktionen mit flexibler Steuerung erfordern. Der neu entwickelte P-DQN-Algorithmus erweitert Deep Q-Networks, um über solche Aktionräume zu lernen. Allerdings behandelt er alle Aktionparameter als eine einzelne gemeinsame Eingabe für das Q-Netzwerk, was seine theoretischen Grundlagen ungültig macht. Wir analysieren die Probleme dieses Ansatzes und schlagen eine neue Methode vor: Multi-Pass Deep Q-Networks (MP-DQN). In empirischen Studien zeigen wir, dass MP-DQN hinsichtlich der Dateneffizienz und der Leistung der konvergierten Politik in den Domains Plattform, Roboterfußballtor und Halbes Feldangriffsignal erheblich besser abschneidet als P-DQN und andere frühere Algorithmen.请注意,"Halbes Feldangriffsignal" 这个术语在德语中并不常见,因此保留了 "Half Field Offense" 的原始形式,并在括号中标注了原文。如果需要进一步调整,请告知。