17일 전

Muesli: 정책 최적화 향상 요소의 통합

Matteo Hessel, Ivo Danihelka, Fabio Viola, Arthur Guez, Simon Schmitt, Laurent Sifre, Theophane Weber, David Silver, Hado van Hasselt
Muesli: 정책 최적화 향상 요소의 통합
초록

우리는 정규화된 정책 최적화와 모델 학습을 보조 손실로 결합하는 새로운 정책 업데이트 방식을 제안한다. 이 업데이트 방식(이하 Muesli)은 Atari에서 MuZero의 최첨단 성능과 동등한 성과를 달성한다. 특히 Muesli는 깊은 탐색(deep search)을 사용하지 않고, 정책 네트워크를 직접 활용하여 작동하며, 모델 자유 기반 기준 대비 계산 속도가 유사하다는 점에서 주목할 만하다. Atari 실험 결과는 광범위한 아블레이션(ablative) 분석과 함께 제시되었으며, 연속 제어(continuous control) 및 9×9 골(Go)에 대한 추가 실험 결과도 포함되어 있다.

Muesli: 정책 최적화 향상 요소의 통합 | 최신 연구 논문 | HyperAI초신경