Meta-World: 다중 작업 및 메타 강화 학습을 위한 벤치마크 및 평가

메타강화학습 알고리즘은 기존 경험을 활용하여 '학습하는 방법'을 학습함으로써 로봇이 새로운 기술을 훨씬 더 빠르게 습득할 수 있도록 지원할 수 있다. 그러나 현재의 메타강화학습 연구 대부분은 매우 제한된 작업 분포(task distribution)에 집중되어 있다. 예를 들어, 일반적으로 사용되는 메타강화학습 기준 평가 지표는 시뮬레이션된 로봇의 다양한 주행 속도를 서로 다른 작업으로 활용한다. 이러한 좁은 작업 분포에서 정책(policy)을 메타학습하면, 완전히 새로운 작업을 더 빠르게 습득하는 데 있어 일반화가 불가능하다. 따라서 이러한 방법의 목적이 완전히 새로운 행동을 빠르게 습득하게 하는 데 있다면, 새로운 행동에 대한 일반화가 가능하도록 충분히 광범위한 작업 분포에서 평가해야 한다. 본 논문에서는 50개의 독립적인 로봇 조작 작업으로 구성된 오픈소스 시뮬레이션 기준 평가 환경을 제안한다. 이는 새로운, 훈련에서 제외된 작업에 대해 일반화할 수 있도록 알고리즘을 개발하는 데 기여할 목적이 있다. 우리는 이 작업들에 대해 최신의 7가지 메타강화학습 및 다중 작업 학습 알고리즘을 평가하였다. 놀랍게도, 각 작업과 그 변형(예: 다양한 물체 위치)은 합리적인 성과로 학습할 수 있었지만, 단 10개의 서로 다른 훈련 작업을 동시에 다룰 때조차 이 알고리즘들은 어려움을 겪었다. 본 연구의 분석 및 오픈소스 환경은 다중 작업 학습과 메타학습 분야의 향후 연구를 촉진할 수 있으며, 의미 있는 일반화를 가능하게 함으로써 이러한 기법의 잠재력을 극대화할 수 있는 길을 열어줄 것이다.