15日前
R3M:ロボット操作におけるユニバーサルな視覚表現
Suraj Nair, Aravind Rajeswaran, Vikash Kumar, Chelsea Finn, Abhinav Gupta

要約
私たちは、多様な人間の動画データ上で事前学習された視覚表現が、下流のロボット操作タスクにおけるデータ効率的な学習をどのように可能にするかを研究する。具体的には、Ego4D人間動画データセットを用いて、時間対照学習(time-contrastive learning)、動画-言語アライメント、およびL1正則化を組み合わせて視覚表現を事前学習する。この正則化は、表現のスパース性とコンパクト性を促進することを目的としている。得られた表現は、R3Mと名付けられ、下流のポリシー学習における固定された感知モジュールとして利用可能である。12種類のシミュレートされたロボット操作タスクにおいて、R3Mは初期学習から直接学習する場合に比べてタスク成功確率を20%以上向上させ、またCLIPやMoCoといった最先端の視覚表現に比べても10%以上の向上を達成した。さらに、R3Mを用いることで、フランカ・エミカ・パンドアアームがわずか20回のデモンストレーションのみで、実際の混雑したアパート環境で多様な操作タスクを学習することが可能となった。コードおよび事前学習済みモデルは、https://tinyurl.com/robotr3m で公開されている。