
초록
소프트 액터-크리틱(Soft Actor-Critic)은 연속적 행동 설정에 대해 최첨단의 강화학습 알고리즘으로, 이는 이산적 행동 설정에는 적용되지 않는다. 그러나 많은 중요한 설정에서는 이산적 행동이 포함되며, 본 연구에서는 이산적 행동 설정에 적용 가능한 소프트 액터-크리틱 알고리즘의 대안 버전을 도출한다. 이후 우리는 하이퍼파라미터 조정 없이도, 아타리(Atari) 게임 세트 중 일부에서 기존의 튜닝된 모델-프리 최첨단 알고리즘과 경쟁할 수 있음을 보여준다.