HyperAI超神经

근접 정책 최적화(PPO)는 강화 학습 분야의 알고리즘으로, 컴퓨터 에이전트의 의사 결정 기능을 훈련하여 어려운 작업을 완료하는 데 사용됩니다. PPO는 2017년 존 슐먼이 개발했으며, 미국의 인공지능 회사인 OpenAI의 기본 강화 학습 알고리즘이 되었습니다. 2018년 PPO는 로봇 팔을 조종하고, Dota 2에서 프로 선수를 이기고, Atari 게임에서 좋은 성적을 거두는 등 다양한 성공을 거두었습니다. 많은 전문가들은 PPO가 성과와 이해의 균형을 잘 맞추었기 때문에 가장 진보된 기술이라고 부릅니다. 다른 알고리즘과 비교했을 때 PPO의 세 가지 주요 장점은 단순성, 안정성, 샘플 효율성입니다.

PPO의 장점

간단: PPO는 TRPO의 기능을 크게 단순화하면서도 계산은 크게 필요하지 않습니다. TRPO는 정책 업데이트를 제한하기 위해 1차 최적화(클리핑 함수)를 사용하는 반면, TRPO는 목적 함수 외부에서 KL 발산 제약 조건을 사용합니다(2차 최적화). TRPO방법과 비교했을 때, PPO방법은 구현이 비교적 쉽고 계산시간도 짧습니다. 따라서 대규모 문제에서는 PPO를 사용하는 것이 더 저렴하고 효율적입니다.
안정:다른 강화 학습 알고리즘에는 하이퍼파라미터 조정이 필요하지만, PPO에는 반드시 하이퍼파라미터 조정이 필요하지 않습니다(대부분의 경우 0.2의 엡실론이면 충분합니다). 더욱이 PPO에는 복잡한 최적화 기술이 필요하지 않습니다. 표준 딥러닝 프레임워크를 사용하여 쉽게 연습할 수 있으며 광범위한 작업에 일반화할 수 있습니다.
샘플 효율성:샘플 효율성은 알고리즘이 좋은 정책을 학습하는 데 더 많은 데이터가 필요한지, 아니면 더 적은 데이터가 필요한지를 나타냅니다. PPO는 대리 타겟을 사용하여 샘플 효율성을 달성합니다. 대체 목표를 통해 PPO는 새로운 정책이 기존 정책과 너무 달라지는 것을 피할 수 있습니다. 클리핑 함수는 정책 업데이트를 정규화하고 학습 데이터를 재사용합니다. 표본 효율성은 데이터 수집 및 계산 비용이 많이 들 수 있는 복잡하고 고차원적인 작업에 특히 유용합니다.

참고문헌

【1】https://en.wikipedia.org/wiki/Proximal_Policy_Optimization