11일 전

GDI: 강화학습이 지도학습과 다른 이유를 다시 생각하기

Jiajun Fan, Changnan Xiao, Yue Huang
GDI: 강화학습이 지도학습과 다른 이유를 다시 생각하기
초록

딥 큐 네트워크(DQN)는 딥 러닝(DL)과 강화학습(RL)을 결합함으로써 딥 강화학습(DRL)의 문을 처음으로 열었다. 이 연구는 학습 과정 중에 획득된 데이터의 분포가 변화할 수 있음을 지적하였으며, 이 성질이 학습의 불안정성을 초래할 수 있음을 발견하였다. 이를 해결하기 위해 DQN은 이 성질의 부정적인 영향을 완화하기 위한 효과적인 방법들을 제안하였다. 그러나 우리가 주목한 것은 이러한 부정적인 측면이 아니라, 강화학습(RL)이 지도학습(SL)이 수행하지 못하는 바, 추정된 데이터 분포와 진정한 데이터 분포 간의 격차를 줄이는 것이 핵심적이라는 점이다. 이러한 새로운 관점에서, 기존의 강화학습 기본 패러다임인 일반화된 정책 반복(GPI)을 더 포괄적인 형태로 확장한 ‘일반화된 데이터 분포 반복(GDI)’을 제안한다. 우리는 다수의 강화학습 알고리즘과 기법들이 GDI 패러다임에 통합될 수 있음을 보여주며, 이는 GDI의 특수한 사례로 간주될 수 있음을 밝힌다. 또한 GDI가 GPI보다 우수한 이유에 대한 이론적 근거를 제시하고, 그 작동 원리를 설명한다. 이를 바탕으로 GDI를 기반으로 한 여러 실용적 알고리즘이 제안되었으며, 이들의 효과성과 일반화 능력이 검증되었다. 실험 결과, 아케이드 학습 환경(Arcade Learning Environment, ALE)에서 우리의 알고리즘이 단 2억 개의 학습 프레임만을 사용하여 평균 인간 정규화 점수(HNS) 9620.98%, 중앙값 HNS 1146.39%, 그리고 22건의 인간 세계 기록 돌파(HWRB)를 달성하며 최첨단(SOTA) 성능을 입증하였다. 본 연구는 강화학습 연구가 인간 세계 기록을 정복하는 여정으로 나아가고, 성능과 효율성 면에서 진정한 슈퍼휴먼 에이전트를 탐색하는 데 기여하고자 한다.