17일 전

일반화된 데이터 분포 반복

Jiajun Fan, Changnan Xiao
일반화된 데이터 분포 반복
초록

깊은 강화학습(DRL) 분야에서 더 높은 샘플 효율성과 우수한 최종 성능을 동시에 달성하는 것은 오랜 시간 동안 주요 과제 중 하나였다. 기존 연구들은 이러한 과제 중 하나는 해결할 수 있었지만, 둘을 동시에 다루는 데는 일반적으로 실패해왔다. 본 논문에서는 이러한 두 가지 과제를 동시에 해결하고자 한다. 이를 위해 먼저 이 두 과제를 전형적인 강화학습(RL) 문제로 분해한다. 즉, 데이터의 풍부성(data richness)과 탐색-이용(trade-off)의 균형 문제로 분리한다. 이후 이 두 문제를 제한된 상호작용 내에서 원하는 학습 데이터를 획득하는 데 초점을 맞춘 학습 데이터 분포 최적화 문제로 재정의하고, 다음과 같은 두 가지 방식을 통해 동시에 해결한다: i) 행동 정책의 능력과 다양성에 대한 명시적 모델링 및 제어, ii) 단조성 데이터 분포 최적화(monotonic data distribution optimization)를 활용한 행동 정책의 선택적/샘플링 분포에 대한 더 세밀하고 적응적인 제어. 마지막으로 이러한 과정을 일반화된 정책 반복(Generalized Policy Iteration, GPI)에 통합하여, 더 포괄적인 프레임워크인 일반화된 데이터 분포 반복(Generalized Data Distribution Iteration, GDI)을 제안한다. GDI 프레임워크를 기반으로 DQN부터 Agent57에 이르기까지 유명한 RL 알고리즘들의 연산자 기반 버전을 제시한다. GPI 대비 GDI의 우수성을 보장하는 이론적 근거를 도출하였다. 또한, 아케이드 학습 환경(Arcade Learning Environment, ALE)에서 최신 기준(SOTA) 성능을 입증하였으며, 본 알고리즘은 단 2억 개의 학습 프레임만을 사용하여 평균 인간 정규화 점수(HNS) 9620.33%, 중앙값 HNS 1146.39%를 달성하고, 22개의 인간 세계 기록을 초과하는 성과를 거두었다. 이는 Agent57과 비슷한 성능을 내면서도 데이터 소비량이 500분의 1에 불과함을 의미한다. 그러나 ALE 환경에서 진정한 슈퍼휴먼(agent)를 달성하기까지는 여전히 긴 여정이 남아 있다고 주장한다.

일반화된 데이터 분포 반복 | 최신 연구 논문 | HyperAI초신경