파라미터화된 행동 제어
강화학습 연구에서 대부분의 논문은 이산 또는 연속 행동 공간에서 에이전트의 행동에 초점을 맞춥니다. 그러나 비디오 게임을 플레이하는 에이전트를 훈련시키는 경우, 이산적이고 연속적인 요소를 모두 포함하는 복합적인 행동을 다루는 것이 종종 필요합니다. 이러한 작업은 "매개변수화된 행동 제어"라고 불리며, 이는 에이전트가 이산적인 결정과 연속적인 매개변수 최적화를 동시에 수행할 수 있는 알고리즘을 설계하는 것을 목표로 합니다. 이를 통해 복잡한 환경에서 효율적인 학습과 실행을 달성할 수 있습니다. 이 작업의 적용 가치는 게임과 같은 다중 모달 인터랙티브 환경에서 에이전트의 적응성과 유연성을 향상시키는 데 있습니다.