Meta-World:マルチタスクおよびメタ強化学習のためのベンチマークと評価

メタ強化学習(meta-reinforcement learning)アルゴリズムは、過去の経験を活用して「学び方」を学ぶことで、ロボットが新しいスキルをはるかに迅速に習得できる可能性を秘めている。しかし、現在のメタ強化学習研究の多くは、非常に狭いタスク分布に焦点を当てている。例えば、よく用いられるメタ強化学習のベンチマークでは、シミュレートされたロボットの異なる走行速度を個別のタスクとして扱っている。このような狭いタスク分布上でポリシーをメタ学習させた場合、まったく新しいタスクへの迅速な適応は到底期待できない。したがって、これらの手法の目的が、まったく新しい行動の迅速な習得を可能にすることであるならば、それらの手法が新しい行動に一般化できるよう、十分に広範なタスク分布上で評価を行う必要がある。本論文では、50の異なるロボット操作タスクから構成されるオープンソースのシミュレート環境を提案し、メタ強化学習およびマルチタスク学習のためのベンチマークとして活用することを目的とする。この環境により、まったく新しいホールドアウトタスクへの一般化を加速できるアルゴリズムの開発が可能となる。我々は、このタスク群上で7つの最先端のメタ強化学習およびマルチタスク学習アルゴリズムを評価した。驚くべきことに、各タスクおよびその変種(たとえば、物体の位置が異なる場合)はそれぞれ比較的うまく学習できる一方で、たとえ10個程度の異なる訓練タスクであっても、複数のタスクを同時に学習することは極めて困難であることが明らかになった。本研究の分析とオープンソースの環境提供は、意味ある一般化を可能にする今後のマルチタスク学習およびメタ学習研究の道筋を示しており、これらの手法が持つ潜在能力を実現するための基盤を築くものである。