11일 전

잠재 흐름을 이용한 강화 학습

Wenling Shang, Xiaofei Wang, Aravind Srinivas, Aravind Rajeswaran, Yang Gao, Pieter Abbeel, Michael Laskin
잠재 흐름을 이용한 강화 학습
초록

시간 정보는 강화 학습(Reinforcement Learning, RL)을 통해 효과적인 정책을 학습하는 데 필수적이다. 그러나 현재 최첨단 RL 알고리즘들은 이러한 시간 정보를 상태 공간의 일부로 가정하거나, 픽셀에서 학습할 경우 단순한 히ュ리스틱인 프레임 스택(frame-stacking)을 사용하여 이미지 관측치에 포함된 시간 정보를 간접적으로 포착한다. 이 히ュ리스틱은 비디오 분류 아키텍처의 현행 패러다임과 대조된다. 현행 비디오 분류 아키텍처는 광학 흐름(optical flow)이나 이중 스트림(두 스트림) 아키텍처와 같은 방법을 통해 시간 정보를 명시적으로 인코딩함으로써 최첨단 성능을 달성하고 있다. 이와 같은 선도적인 비디오 분류 아키텍처에 영감을 받아, 우리는 강화 학습을 위한 새로운 네트워크 아키텍처인 ‘잠재 벡터 차이를 통한 흐름(Flare: Flow of Latents for Reinforcement Learning)’을 제안한다. Flare는 잠재 벡터의 차이를 통해 시간 정보를 명시적으로 인코딩한다. 우리는 Flare가 (i) 상태 속도 정보에 직접 접근하지 않고도 위치 상태 정보만으로도 상태 기반 RL에서 최적의 성능을 회복함을 보이며, (ii) DeepMind Control 벤치마크 테스크 중에서 특히 도전적인 연속 제어 과제인 사각형 보행(quadruped walk), 허퍼 점프(hopper hop), 핸드 회전 하드(finger turn hard), 진자 흔들기(pendulum swing), 워커 달리기(walker run)에서 최첨단 성능을 달성함을 입증한다. 또한 Flare는 모델-프리(pixel-based) RL 알고리즘 중에서 가장 샘플 효율성이 뛰어나며, 50만 및 100만 스텝 벤치마크에서 기존의 모델-프리 최첨단 알고리즘보다 각각 1.9배와 1.5배 우수한 성능을 기록한다. 더불어, Rainbow DQN에 보완적으로 적용했을 경우, 8개의 도전적인 Atari 게임 중 5개에서 1억 타임스텝 벤치마크에서 기존의 최첨단 기준보다 뛰어난 성능을 보였다.

잠재 흐름을 이용한 강화 학습 | 최신 연구 논문 | HyperAI초신경