2달 전
Proximal Policy Optimization Algorithms 근사 정책 최적화 알고리즘
John Schulman; Filip Wolski; Prafulla Dhariwal; Alec Radford; Oleg Klimov

초록
우리는 강화 학습을 위한 새로운 정책 경사 방법의 가족을 제안합니다. 이 방법은 환경과의 상호작용을 통해 데이터 샘플링과 스토케이스틱 경사 상승법을 사용하여 "대체" 목적 함수를 최적화하는 과정을 번갈아가며 수행합니다. 표준 정책 경사 방법이 각 데이터 샘플당 하나의 경사 업데이트를 수행하는 반면, 우리는 여러 에폭 동안 미니배치 업데이트를 가능하게 하는 새로운 목적 함수를 제안합니다. 이 새로운 방법들을 근접 정책 최적화(PPO)라고 부르며, 신뢰 영역 정책 최적화(TRPO)의 일부 장점을 가지고 있지만, 구현이 훨씬 간단하고, 보다 일반적이며, 샘플 복잡도(실험적으로)가 더 우수합니다. 우리의 실험은 시뮬레이션된 로봇 운동 및 아타리 게임 플레이를 포함한 벤치마크 작업들의 집합에서 PPO를 테스트하며, PPO가 다른 온라인 정책 경사 방법보다 우수한 성능을 보이며, 전체적으로 샘플 복잡도, 단순성 및 처리 시간 사이에서 유리한 균형을 이루고 있음을 보여줍니다.