18日前

メタ・ワールドにおけるマルチタスク学習およびメタ強化学習におけるポリシー蒸留の分析

{Nathan Blair, Victor Chan and Adarsh Karnati}
メタ・ワールドにおけるマルチタスク学習およびメタ強化学習におけるポリシー蒸留の分析
要約

ポリシー蒸留(Policy Distillation)は、マルコフ決定過程(Markov Decision Process)を異なる部分に分割し、それぞれの部分において専門的なポリシーを学習した後、それらを統合して全体空間における単一のポリシーを構築する手法である。スポーツチームが異なるポジションに分かれて各々が独自の能力を貢献するのと同様に、ポリシー蒸留はマルコフ決定過程の構造を利用し、広範な一般化を必要としない、各分割領域に特化した専門家ポリシーをまず学習する。その後、これらの専門家ポリシーを一つのグローバルポリシーに統合することで、各領域で学習した特徴をそれぞれが貢献する。グローバルポリシーが状態空間のどの部分に直面するかに応じて、その領域に対応する局所ポリシーから得た特徴を活用できる。メタ強化学習(Meta-reinforcement learning)と多タスク学習(Multi-task learning)は、密接に結びついた分野である。メタ強化学習は、過去の経験を基に新しいタスクを迅速に解決することを目指すのに対し、多タスク学習はアルゴリズムが一度に広範なタスク分布に対して一般化する能力に重点を置いている。しかし、成功したメタ学習は、通常、多タスク学習においても優れた性能と相関しており、逆もまた然りである。新しいタスクに迅速に適応できるエージェントは、定義上、そのタスクをより効果的に学習できる。同様に、多数のタスクに一般化したエージェントは、新しいが関連するタスクに直面した際にも、より速く学習できる可能性が高い。両者とも多数の個別タスクから構成されるため、自然と分割(partitioning)に適している。ポリシー蒸留は多タスク学習において有望な結果を示しているが、その成果は限定的であり、広く研究されていない。本研究では、ポリシー蒸留アルゴリズム「Divide-and-Conquer(DnC)」を、新しい多タスク学習およびメタ学習のベンチマークであるMeta-Worldに適用する。Divide-and-Conquer(DnC)は、状態空間の分割に関する情報をコンテキストで表現するポリシー蒸留アルゴリズムである。これらのコンテキストに基づき、局所ポリシーはKLダイバージェンスの制約のもとで訓練され、互いに類似した形を保つようにする。その後、別のKLダイバージェンスの制約のもとで、これらの局所ポリシーが統合され、グローバルポリシーが生成される。Meta-Worldは、多タスク学習およびメタ学習のための新規ベンチマークである。本研究では、DnCの性能を、メタ学習(ML)および多タスク学習(MT)の両ベンチマークにおいて、Trust-Region Policy Optimization(TRPO)をベースラインとして評価した。メタ学習ベンチマークでは、DnCの状態空間を個々のタスクごとに分割する。メタトレーニングの際には、テストタスクを除くトレーニングタスクを分割として用いる。メタトレーニングにより得られた最終的なグローバルポリシーを、テストタスクに適用し、最終的な報酬と成功確率を評価する。多タスク学習ベンチマークでは、再び状態空間を個々のタスクごとに分割するが、ホールドアウトされたタスクは存在しない。DnCはすべてのタスクでトレーニングを行い、そのすべてのタスクで評価する。また、各個別タスクには変動する目標状態が存在するため、局所ポリシーはこれらの変動する状態に適応する能力を学習しなければならない。グローバルポリシーは、単に個々のトレーニングタスクを解決するだけでなく、各タスク内の異なる目標状態に適応する能力も学習しなければならない。本研究の結果、DnCはメタ学習ベンチマークにおいて、ベースラインであるTRPOと同等の性能を達成した。状態空間を個々のタスクに分割した場合、局所ポリシーはそれぞれのタスクを約4〜5%の成功率で正しく学習することが可能であった。これらの個別専門家ポリシーから構成されるグローバルポリシーも、局所ポリシーと同程度の性能と成功確率を示した。一方、多タスク学習ベンチマークでは、DnCは約65%の成功率を達成した。この結果について、DnCがポリシー蒸留アルゴリズムであるため、トレーニングとテスト環境に同じタスクが存在する多タスク学習のテスト環境では、各タスクを記憶し、テスト時にすべてのタスクで良好な性能を発揮できると考えられる。しかし、メタ学習では、テスト時に新しいタスクに適応することが困難であるため、DnCの性能はそれほど高くはならなかった。