11日前

マスク視覚事前学習によるモータ制御

Tete Xiao, Ilija Radosavovic, Trevor Darrell, Jitendra Malik
マスク視覚事前学習によるモータ制御
要約

本稿では、実世界の画像から自己教師付き視覚事前学習を行うことが、ピクセルからモータ制御タスクを学習する上で有効であることを示す。まず、自然画像のマスクモデル化により視覚表現を事前学習する。その後、視覚エンコーダを固定し、強化学習を用いて上位にニューラルネットワーク制御器を学習する。エンコーダに対してタスク固有の微調整は一切行わず、同一の視覚表現をすべてのモータ制御タスクに共通して使用する。知られている限り、本研究は実世界の画像を大規模に活用してモータ制御に応用する初めての自己教師付きモデルである。ピクセルからの学習の進展を加速するため、運動の種類、シーン、ロボットの種類を変化させた手作業で設計されたタスクを統合したベンチマークセットを提供する。ラベルや状態推定、専門家の示範に依存せずに、教師付きエンコーダを最大80%の絶対的な成功確率で上回り、場合によってはオラクル状態性能にまで達することも確認した。また、YouTubeやエゴセントリック動画など実世界の画像(イン・ザ・ワイルド画像)は、ImageNetの画像よりも、さまざまな操作タスクにおける視覚表現の質が優れていることも明らかになった。

マスク視覚事前学習によるモータ制御 | 最新論文 | HyperAI超神経