17일 전

학습 가능한 행동 제어: 샘플 효율적인 행동 선택을 통한 아타리 인간 세계 기록 돌파

Jiajun Fan, Yuzheng Zhuang, Yuecheng Liu, Jianye Hao, Bin Wang, Jiangcheng Zhu, Hao Wang, Shu-Tao Xia
학습 가능한 행동 제어: 샘플 효율적인 행동 선택을 통한 아타리 인간 세계 기록 돌파
초록

탐색 문제는 심층 강화 학습(DRL)에서 가장 주요한 과제 중 하나이다. 최근의 유망한 연구들은 인구 기반 방법을 활용하여 이 문제를 다루려고 시도하였으며, 다양한 탐색 정책으로부터 유도된 다양한 행동 특성을 가지는 샘플을 수집하는 방식을 사용하였다. 이러한 접근에서는 행동 제어를 위해 적응형 정책 선택 기법이 도입되었다. 그러나 행동 선택 공간은 미리 정의된 정책 인구에 의해 크게 제한되며, 이는 행동 다양성의 제한으로 이어진다. 본 논문에서는 이러한 한계를 극복하기 위해 일반적인 프레임워크인 학습 가능한 행동 제어(Learnable Behavioral Control, LBC)를 제안한다. LBC는 다음과 같은 두 가지 핵심 기능을 제공한다: a) 모든 정책들로부터 구성된 하이브리드 행동 매핑을 정의함으로써 행동 선택 공간을 크게 확장한다; b) 행동 선택을 위한 통합된 학습 가능한 프로세스를 구축한다. 우리는 LBC를 분산형 비정책(actor-critic) 방법에 통합하여, 밴딧 기반 메타 컨트롤러를 통해 행동 매핑의 선택을 최적화함으로써 행동 제어를 실현하였다. 실험 결과, 우리 에이전트는 아케이드 학습 환경(Arcade Learning Environment)에서 10억 프레임의 훈련을 수행한 후 평균 인간 정규화 점수(10077.52%)를 달성하였으며, 24개의 인간 최고 기록을 초과하는 성과를 보였다. 이는 샘플 효율성의 저하 없이도 상위 수준의 최신 기술(SOTA) 성능을 달성하였음을 입증한다.