다중 작업 학습 및 메타 월드에서의 메타 강화 학습에 대한 정책 증류 분석

정책 증류( policy distillation)는 마르코프 결정 과정(Markov Decision Process)을 다양한 부분으로 분할하고, 각 부분에 대해 전문가 정책(expert policies)을 독립적으로 학습한 후, 전체 상태 공간에 대해 하나의 통합 정책으로 조합하는 기법이다. 마치 스포츠 팀이 각각의 포지션에 따라 전문적인 역량을 기여하는 것처럼, 정책 증류는 마르코프 결정 과정의 구조를 활용하여, 보다 넓은 일반화가 필요하지 않은 각 파티션별 전문가 정책을 먼저 학습한다. 이후 이러한 전문가들이 하나의 글로벌 정책으로 통합되면서, 각 파티션에서 학습한 특징들을 기여하게 된다. 글로벌 정책이 특정 상태 공간의 어느 부분에 직면하게 되면, 해당 파티션의 로컬 정책으로부터 얻은 특징을 활용할 수 있다.메타강화학습(meta-reinforcement learning)과 다중작업학습(multi-task learning)은 매우 밀접하게 연결된 분야이다. 메타강화학습은 과거 경험을 바탕으로 새로운 작업을 빠르게 해결하는 것을 목표로 하며, 다중작업학습은 알고리즘이 동시에 다양한 작업 분포에 대해 일반화할 수 있는 능력을 중시한다. 그러나 성공적인 메타학습은 일반적으로 다중작업학습에서의 성능 향상과 상관관계가 있으며, 그 반대도 마찬가지이다. 새로운 작업에 빠르게 적응할 수 있는 에이전트는 정의상 그 새로운 작업을 더 잘 학습할 수 있으며, 여러 작업에 대해 일반화된 에이전트는 새로운 관련 작업을 제시받았을 때 더 빠르게 학습할 가능성이 높다. 메타학습과 다중작업학습 모두 여러 개의 개별 작업으로 구성되어 있으므로, 자연스럽게 파티셔닝(partitioning)에 적합하다. 정책 증류는 다중작업학습에서 희망적인 성과를 보였지만, 결과는 제한적이며 심층적인 연구는 이루어지지 않았다. 본 연구에서는 정책 증류 알고리즘인 Divide-and-Conquer(DnC)을 Meta-World 벤치마크에 적용해 보았다.Divide-and-Conquer(DnC)는 상태 공간의 파티션에 대한 정보를 표현하기 위해 컨텍스트(context)를 사용하는 정책 증류 알고리즘이다. 이러한 컨텍스트를 기반으로, KL 발산(KL divergence) 제약 조건을 두어 각 로컬 정책이 서로 유사하게 학습되도록 한다. 이후 다른 KL 발산 제약 조건을 사용하여 이들 로컬 정책을 하나의 글로벌 정책으로 통합한다.Meta-World는 다중작업학습과 메타학습을 위한 새로운 벤치마크이다. 우리는 DnC의 성능을 메타학습(ML) 및 다중작업학습(MT) 벤치마크 모두에서 분석하였으며, 기준으로 Trust-Region Policy Optimization(TRPO)를 사용하였다. ML 벤치마크에서는 DnC의 상태 공간을 개별 작업별로 파티셔닝하였다. 메타학습 과정에서는 테스트 작업을 제외한 학습 작업들을 파티션으로 사용하였고, 메타학습을 통해 최종 글로벌 정책을 얻은 후, 이를 테스트 작업에 적용하여 최종 보상과 성공률을 측정하였다. MT 벤치마크의 경우에도 상태 공간을 개별 작업별로 파티셔닝하였으나, 보류된 작업(held-out tasks)이 없었으며, DnC는 모든 작업에 대해 학습하고 동일한 작업들로 테스트되었다. 각 개별 작업은 변동하는 목표 상태(goal states)를 가지므로, 로컬 정책은 이러한 변동하는 상태에 적응할 수 있어야 한다. 따라서 글로벌 정책은 단순히 개별 학습 작업을 해결하는 것뿐만 아니라, 각 작업 내에서 다양한 목표 상태에 적응하는 능력도 학습해야 한다.본 연구 결과, DnC는 메타학습 벤치마크에서 기준 모델인 TRPO와 동등한 성능을 달성하였다. 상태 공간을 개별 작업으로 파티셔닝했을 때, 로컬 정책들은 각각의 개별 작업을 성공적으로 학습할 수 있었으며, 성공률은 약 4~5% 수준이었다. 이러한 개별 전문가 정책들을 조합한 글로벌 정책 역시 로컬 정책과 동일한 성능과 성공률을 보였다. 반면, 다중작업학습 벤치마크에서는 DnC가 약 65%의 성공률을 달성하였다. 우리는 이 결과가 DnC가 정책 증류 알고리즘임과 동시에, 학습 및 테스트 환경이 동일한 작업들로 구성되어 있기 때문에, 각 개별 작업을 기억하고 테스트 시 모든 작업에서 우수한 성능을 발휘할 수 있었기 때문이라고 판단한다. 그러나 메타학습의 경우, 테스트 시 새로운 작업에 적응하는 것이 더 어려워 DnC의 성능이 상당히 떨어지는 것으로 보인다.