2달 전

Go-Explore: 어려운 탐색 문제를 위한 새로운 접근법

Adrien Ecoffet; Joost Huizinga; Joel Lehman; Kenneth O. Stanley; Jeff Clune
Go-Explore: 어려운 탐색 문제를 위한 새로운 접근법
초록

강화 학습에서 가장 큰 도전 과제 중 하나는 특히 보상이 희박하거나 오도하는 경우의 지능형 탐색입니다. 이와 같은 어려운 탐색 영역을 벤치마킹하기 위해 두 개의 아타리 게임이 사용됩니다: 몬테주마의 복수(Montezuma's Revenge)와 함정(Pitfall). 현재 RL 알고리즘은 내재적 동기 부여를 포함한 알고리즘들조차도 이러한 두 게임에서 성능이 저조합니다. 내재적 동기 부여는 어려운 탐색 영역에서 성능을 개선하는 주요 방법입니다.이 문제를 해결하기 위해, 우리는 새로운 알고리즘인 Go-Explore를 소개합니다. 이 알고리즘은 다음과 같은 원칙들을 활용합니다: (1) 이전에 방문한 상태를 기억하고, (2) 먼저 유망한 상태로 돌아가서(탐색 없이) 그 상태에서 탐색을 시작하며, (3) 시뮬레이션 환경을 가능한 모든 수단(결정론 도입 포함)으로 해결한 후 모방 학습을 통해 강건성을 확보합니다. 이러한 원칙들의 결합 효과로 인해 Go-Explore는 어려운 탐색 문제에서 성능이 크게 향상되었습니다.몬테주마의 복수에서 Go-Explore는 평균 43,000점 이상을 기록하여 기존 최고 기술보다 거의 4배 높습니다. 또한 인간이 제공한 영역 지식을 활용할 수 있으며, 이를 통해 몬테주마의 복수에서 평균 650,000점 이상을 얻습니다. 최대 성능인 약 1,800만 점은 인간 세계 기록을 넘어서 "초인간" 성능의 엄격한 정의까지 충족시킵니다. 함정에서는 Go-Explore가 영역 지식과 함께 사용될 때 처음으로 0점을 초과하는 알고리즘이 되었습니다. 평균 점수가 약 60,000점으로 전문가 수준의 인간 성능을 초월했습니다.Go-Explore는 고성능 시연을 자동으로且低成本地生成,因此在人类提供解决方案演示的模仿学习工作中也表现出色。Go-Explore不仅为改进自身和将其见解融入当前的RL算法开辟了许多新的研究方向,还可能在许多领域(尤其是在训练过程中利用模拟器的领域,如机器人技术)中推动对以前无法解决的困难探索问题的进步。注:最后一段中的“且低成本地生成”和“因此在人类提供解决方案演示的模仿学习工作中也表现出色”以及“不仅为改进自身和将其见解融入当前的RL算法开辟了许多新的研究方向”这几句话在韩文中进行了适当的结构调整以符合韩语表达习惯。修正后的韩文翻译如下:Go-Explore는 고성능 시연을 자동으로 생성할 수 있고 비용도 저렴하므로, 인간이 솔루션 시연을 제공하는 모방 학습 작업에서도 우수한 성능을 발휘합니다. Go-Explore는 자체 개선과 현재 RL 알고리즘에 통찰력을 융합하는 새로운 연구 방향들을 열어놓으며, 특히 훈련 과정에서 시뮬레이터를 활용하는 분야(예: 로봇공학)에서 이전에 해결되지 않았던 어려운 탐색 문제에 대한 진전 가능성을 제시합니다.

Go-Explore: 어려운 탐색 문제를 위한 새로운 접근법 | 최신 연구 논문 | HyperAI초신경