2ヶ月前

多タスク深層強化学習におけるPopArt

Matteo Hessel; Hubert Soyer; Lasse Espeholt; Wojciech Czarnecki; Simon Schmitt; Hado van Hasselt
多タスク深層強化学習におけるPopArt
要約

強化学習コミュニティは、特定のタスクにおいて人間の性能を上回るアルゴリズムの設計に大きな進歩を遂げています。これらのアルゴリズムは主に一タスクずつ訓練され、新しいタスクごとに全新的なエージェントインスタンスを訓練する必要があります。これは学習アルゴリズム自体が一般的であるものの、各ソリューションがそうではないことを意味します;各エージェントは訓練されたタスクのみを解決できます。本研究では、単一ではなく複数の逐次決定タスクを同時にマスターすることの問題に焦点を当てます。多様なタスク学習における一般的な課題は、単一の学習システムの限られたリソースに対する複数のタスクのニーズ間でバランスを見つけることです。多くの学習アルゴリズムは、解決すべきタスクセット内の特定のタスクに気を取られる傾向があります。これらのタスクは、例えばその報酬密度や大きさにより、学習プロセスに対してより目立つように見えます。これにより、アルゴリズムは汎用性よりもその目立つタスクに集中してしまうのです。私たちは各タスクがエージェントの更新に与える影響を自動的に調整することを提案します。これによりすべてのタスクが学習ダイナミクスに対して同程度の影響を持つようになります。この方法により、57種類もの多様なアータリゲーム全てでのプレイ能力を学習する上で最先端の性能が達成されました。興味深いことに、私たちの手法は単一の訓練済みポリシー(単一の一連の重み)によって中央値の人間パフォーマンスを超えることを可能としました。当該研究グループにとって知る限り、これは初めて単一エージェントがこの多様な領域で人間レベル以上のパフォーマンスを達成した事例です。さらに同じアプローチは3D強化学習プラットフォームDeepMind Lab(ディープマインドラボ)上の30種類のタスクセットでも最先端の性能を示しました。