2달 전
비디오 게임에서 실용적인 강화학습을 위한 이산 및 연속 행동 표현
Olivier Delalleau; Maxim Peter; Eloi Alonso; Adrien Logut

초록
현재 강화학습(RL) 연구의 대부분은 제어된 환경에서 알고리즘의 성능을 개선하는 데 초점을 맞추고 있지만, 비디오 게임 산업과 같은 제약 조건 하에서 RL을 사용하는 경우는 거의 연구되지 않고 있습니다. 이러한 제약 조건 하에서 작동할 수 있도록, 우리는 연속적, 이산적 및 매개변수화된 행동을 원칙에 따라 처리할 수 있는 소프트 액터-크리틱(Soft Actor-Critic) 알고리즘의 확장 버전인 하이브리드 SAC(Hybrid SAC)를 제안합니다. 우리는 하이브리드 SAC가 우리의 게임 중 하나에서 고속 주행 과제를 성공적으로 해결할 수 있음을 보여주며, 매개변수화된 행동 벤치마크 과제에서는 최신 기술과 경쟁력이 있음을 입증하였습니다. 또한 정규화 흐름(normalizing flows)을 사용하여 정책(policy)의 표현력을 최소한의 계산 비용으로 향상시키는 영향을 탐구하였으며, 정규화 흐름과 함께 사용될 때 소프트 액터-크리틱 알고리즘이 미칠 수 있는 잠재적인 부작용을 파악하고 이를 다른 목적함수(objective)를 최적화함으로써 해결할 수 있는 방법을 제시하였습니다.