Diskrete und kontinuierliche Aktionendarstellung für praktisches RL in Videospielen

Während die meisten aktuellen Forschungen im Bereich Reinforcement Learning (RL) sich auf die Verbesserung der Leistung der Algorithmen in kontrollierten Umgebungen konzentrieren, wird die Anwendung von RL unter denartigen Bedingungen, wie sie in der Videospielindustrie vorkommen, selten untersucht. Unter solchen Bedingungen schlagen wir Hybrid SAC vor, eine Erweiterung des Soft Actor-Critic-Algorithmus, die diskrete, kontinuierliche und parametrisierte Aktionen auf fundierte Weise verarbeiten kann. Wir zeigen, dass Hybrid SAC erfolgreich eine Hochgeschwindigkeitsfahrtaufgabe in einem unserer Spiele lösen kann und bei Benchmarks für parametrisierte Aktionen mit dem Stand der Technik mithalten kann. Darüber hinaus untersuchen wir den Einfluss der Verwendung von Normalizing Flows zur Steigerung der Ausdrucksfähigkeit der Politik bei minimalem Rechenaufwand und identifizieren einen potentiellen unerwünschten Effekt von SAC bei der Verwendung von Normalizing Flows, der durch die Optimierung eines anderen Zielfunktionals angegangen werden könnte.