2달 전

다중 작업 딥 강화 학습과 PopArt

Matteo Hessel; Hubert Soyer; Lasse Espeholt; Wojciech Czarnecki; Simon Schmitt; Hado van Hasselt
다중 작업 딥 강화 학습과 PopArt
초록

강화 학습 커뮤니티는 특정 작업에서 인간의 성능을 초월할 수 있는 알고리즘 설계에 큰 진전을 이룩하였습니다. 이러한 알고리즘은 대부분 한 번에 하나의 작업만 훈련되며, 각 새로운 작업마다 완전히 새로운 에이전트 인스턴스를 훈련시켜야 합니다. 이는 학습 알고리즘이 일반적이지만, 각 솔루션이 그렇지 않다는 것을 의미합니다. 즉, 각 에이전트는 훈련받은 하나의 작업만 해결할 수 있습니다. 본 연구에서는 한 번에 여러 순차적 결정 작업을 마스터하는 문제를 다룹니다.다중 작업 학습에서 일반적인 문제는 단일 학습 시스템의 제한된 자원을 여러 작업이 경쟁하면서 균형을 맞추어야 한다는 것입니다. 많은 학습 알고리즘이 해결해야 하는 작업 집합 중 일부 작업에 의해 방해받을 수 있습니다. 이러한 작업들은 학습 과정에서 더 두드러지게 나타나는데, 예를 들어 작업 내 보상의 밀도나 크기 때문일 수 있습니다. 이로 인해 알고리즘이 일반성을 희생하면서 그 두드러진 작업들에 집중하게 됩니다. 우리는 각 작업이 에이전트의 업데이트에 미치는 영향이 유사하도록 모든 작업이 학습 동력학에 비슷한 영향을 미칠 수 있도록 각 작업의 기여도를 자동으로 조정하는 방법을 제안합니다.그 결과, 57개 다양한 아타리 게임 세트에서 모든 게임을 플레이하는 데 있어 최고 성능을 달성하였습니다. 흥미롭게도, 우리의 방법은 단일 세트의 가중치로 단일 훈련 정책을 배우는데 성공하여 중간 인간 성능을 초월하였습니다. 우리 지식으로는, 이는 처음으로 단일 에이전트가 이 다중 작업 영역에서 인간 수준 이상의 성능을 발휘한 사례입니다. 같은 접근법은 3D 강화 학습 플랫폼인 DeepMind Lab(딥마인드 랩)에서 30개의 작업 세트에서도 최고 성능을 보여주었습니다.