17일 전

GDI: 강화학습이 지도학습과 다른 이유를 다시 생각하기

{Anonymous}
초록

딥 Q 네트워크(DQN)는 딥 러닝(DL)과 강화학습(RL)을 결합함으로써 딥 강화학습(DRL)의 문을 처음으로 열었다. 이 과정에서 DQN은 학습 과정 중에 획득된 데이터의 분포가 변화할 수 있음을 인지하게 되었고, 이러한 성질이 학습의 안정성에 악영향을 줄 수 있음을 발견하였다. 따라서 DQN은 이 성질이 초래하는 부정적인 영향을 효과적으로 다루는 방법들을 제안하였다. 그러나 우리가 주목한 점은 이 부정적인 측면에만 집중하는 것이 아니라, 강화학습(RL)이 추정된 데이터 분포와 진정한 데이터 분포 사이의 격차를 줄이는 데 있어 핵심적인 역할을 해야 한다는 점이다. 반면, 지도학습(SL)은 이러한 문제를 해결하지 못한다. 이 새로운 관점에서 우리는 기본적인 강화학습 프레임워크인 일반화 정책 반복(Generalized Policy Iteration, GPI)을 더 포괄적인 형태로 확장한, 일반화된 데이터 분포 반복(Generalized Data Distribution Iteration, GDI)이라는 새로운 프레임워크를 제안한다. 우리는 많은 강화학습 알고리즘과 기법들이 GDI 프레임워크에 통합될 수 있음을 보이며, 이는 GDI의 특수한 사례로 간주될 수 있음을 밝힌다. 또한 GDI가 GPI보다 우수한 이유에 대한 이론적 증명과 작동 원리를 제시한다. 이를 바탕으로 GDI를 기반으로 한 몇 가지 실용적인 알고리즘이 제안되었으며, 그 효과성과 적용 가능성을 검증하였다. 실험 결과, 아케이드 학습 환경(Arcade Learning Environment, ALE)에서 최첨단(SOTA) 성능을 입증하였으며, 단 2억 개의 학습 프레임만을 사용하여 평균 인간 정규화 점수(HNS) 9620.98%, 중앙값 HNS 1146.39%, 인간 세계기록 돌파(Human World Record Breakthrough, HWRB) 22건을 달성하였다. 본 연구는 강화학습 분야의 연구 방향을 인간의 세계기록을 정복하고, 성능과 효율성 측면에서 진정한 슈퍼휴먼 에이전트를 탐색하는 새로운 여정으로 이끌고자 한다.