2달 전

강화 학습에서 깊은 예측 모델을 활용한 탐사 유도

Bradly C. Stadie; Sergey Levine; Pieter Abbeel
강화 학습에서 깊은 예측 모델을 활용한 탐사 유도
초록

복잡한 영역에서 효율적이고 확장 가능한 탐사를 달성하는 것은 강화 학습에서 주요한 도전 과제입니다. 베이지안 및 PAC-MDP 접근 방식은 탐사 문제에 대해 강력한 형식적인 보장을 제공하지만, 상태-행동 공간을 열거하는 것에 의존하기 때문에 고차원에서는 종종 실용적이지 않습니다. 따라서 복잡한 영역에서의 탐사는 종종 간단한 엡실론-그리디 방법으로 수행됩니다. 본 논문에서는 원시 픽셀 입력과 지연된 보상 처리가 필요한 어려운 Atari 게임 영역을 고려합니다. 우리는汤普森采样 및 볼츠만 탐사와 같은 몇 가지 더 정교한 탐사 전략을 평가하고, 시스템 동특성을 학습하는 병렬 모델로부터 탐사 보너스를 할당하는 새로운 탐사 방법을 제안합니다. 우리의 학습 모델을 신경망으로 매개변수화함으로써, 우리는 복잡하고 고차원적인 상태 공간을 가진 작업에 적용할 수 있는 확장 가능하고 효율적인 탐사 보너스 접근 방식을 개발할 수 있었습니다. Atari 영역에서는 우리 방법이 이전 방법들이 큰 도전에 직면한 다양한 게임에서 가장 일관된 개선 효과를 제공합니다. 게임 점수뿐만 아니라, 우리는 Atari 학습 영역을 위한 AUC-100 지표도 개발하여, 이 벤치마크에서 탐사의 영향을 평가하였습니다.注:在翻译中,"Thompson sampling" 被译为 "湯普森采样",但为了符合韩语习惯,应改为 "톰슨 샘플링"。以下是修正后的版本:복잡한 영역에서 효율적이고 확장 가능한 탐사를 달성하는 것은 강화 학습에서 주요한 도전 과제입니다. 베이지안 및 PAC-MDP 접근 방식은 탐사 문제에 대해 강력한 형식적인 보장을 제공하지만, 상태-행동 공간을 열거하는 것에 의존하기 때문에 고차원에서는 종종 실용적이지 않습니다. 따라서 복잡한 영역에서의 탐사는 종종 간단한 엡실론-그리디 방법으로 수행됩니다. 본 논문에서는 원시 픽셀 입력과 지연된 보상 처리가 필요한 어려운 Atari 게임 영역을 고려합니다. 우리는 톰슨 샘플링 및 볼츠만 탐사와 같은 몇 가지 더 정교한 탐사 전략을 평가하고, 시스템 동특성을 학습하는 병렬 모델로부터 탐사 보너스를 할당하는 새로운 탐사 방법을 제안합니다. 우리의 학습 모델을 신경망으로 매개변수화함으로써, 우리는 복잡하고 고차원적인 상태 공간을 가진 작업에 적용할 수 있는 확장 가능하고 효율적인 탐사 보너스 접근 방식을 개발할 수 있었습니다. Atari 영역에서는 우리 방법이 이전 방법들이 큰 도전에 직면한 다양한 게임에서 가장 일관된 개선 효과를 제공합니다. 게임 점수뿐만 아니라, 우리는 Atari 학습 영역을 위한 AUC-100 지표도 개발하여, 이 벤치마크에서 탐사의 영향을 평가하였습니다.