2ヶ月前
ビデオゲームにおける実用的な強化学習のための離散的および連続的な行動表現
Olivier Delalleau; Maxim Peter; Eloi Alonso; Adrien Logut

要約
現在の強化学習(Reinforcement Learning: RL)に関する研究の多くは、制御された環境下でのアルゴリズムの性能向上に焦点を当てていますが、ビデオゲーム業界などで遭遇するような制約条件の下でのRLの利用についてはほとんど研究が行われていません。このような制約条件の下で運用することを念頭に置いて、我々はHybrid SACと呼ばれるソフトアクターキリティック(Soft Actor-Critic: SAC)アルゴリズムの拡張版を提案します。このHybrid SACは、離散的な行動、連続的な行動、およびパラメータ化された行動を体系的に扱うことが可能です。我々は、Hybrid SACが自社のゲームにおいて高速走行タスクを成功裏に解決できることを示しました。また、パラメータ化された行動に関するベンチマークタスクでは最先端技術と競争力があることを確認しています。さらに、ノーマライジングフローを使用してポリシーの表現力を最小限の計算コストで向上させる影響を探り、SACがノーマライジングフローと共に使用される際に潜在的に望ましくない効果が生じる可能性があることを指摘し、異なる目的関数を最適化することでその問題に対処できる可能性についても考察しています。