
要約
マルチタスク学習は強化学習における非常に困難な課題である。複数のタスクを同時に学習させることで、ポリシー間でパラメータを共有できる一方、最適化問題は非自明となる:ネットワーク内のどのパラメータをタスク間で再利用すべきか、また異なるタスクからの勾配が互いにどのように干渉し合うかが明確でない。そのため、タスク間で単純にパラメータを共有するのではなく、ポリシー表現に明示的なモジュール化技術を導入することで、この最適化の課題を軽減する。基本となるポリシー・ネットワークを前提に、各タスクに応じて基本ネットワークを再構成するための異なるルーティング戦略を推定するルーティング・ネットワークを設計した。各タスクに対してルートを直接選択するのではなく、タスク固有のポリシーは「ソフトモジュール化(soft modularization)」と呼ばれる手法を用いて、すべての可能なルートを柔軟に組み合わせる。このアプローチは順次的なタスクに特に適している。シミュレーション環境における多様なロボティクス操作タスクを対象に実験を行い、強力なベースラインと比較して、サンプル効率および性能の両面で大幅な向上を示した。