
要約
Soft Actor-Criticは、連続的アクション設定において最先端の強化学習アルゴリズムであるが、離散的アクション設定には適用できない。しかしながら、多くの重要な設定では離散的アクションが関与しており、そこで本研究では離散的アクション設定に適用可能なSoft Actor-Criticの代替版を導出する。さらに、ハイパーパラメータのチューニングを行わずに、Atariゲームセットから選ばれた複数のゲームにおいて、チューニング済みのモデルフリー最先端手法と同等の性能を達成できることを示す。