時間対照ネットワーク:ビデオからの自己監督学習

私たちは、複数の視点から記録されたラベルの付いていないビデオのみを使用して表現とロボット行動を学習する自己監督アプローチを提案し、この表現が2つのロボット模倣設定でどのように利用できるかを研究しています。これらの設定は、人間のビデオから物体との相互作用を模倣することと、人間の姿勢を模倣することです。人間の行動の模倣には、エンドエフェクタ(手やロボットの把持器)と環境、物体属性、体の姿勢との関係を捉える視点不変表現が必要です。我々は、同じ観測に対する複数の同時視点が埋め込み空間で引き寄せられ、一方で時間的な近傍(しばしば視覚的に類似しているが機能的に異なる)が斥力されるメトリック学習損失を使用して表現を訓練します。つまり、モデルは異なる外見を持つ画像間での共通点を認識すると同時に、類似した外見を持つ画像間での違いも学習します。この信号により、モデルは視点を超えて変化しないが時間とともに変化する属性を見出し、遮蔽(occlusions)、動きブラー(motion blur)、照明や背景などの不要な変動要因を無視することができます。私たちは、この表現が明示的な対応なしにロボットが直接人間の姿勢を模倣するために使用できること、および強化学習アルゴリズム内の報酬関数として使用できることを示しました。表現はタスクに関連したラベルの付いていないビデオコレクションから学習されますが、注ぐなどのロボット行動は人間による単一の第三者視点デモンストレーションを見て学習されます。学習された表現に基づいて人間のデモンストレーションに従って得られる報酬関数により、実世界のロボットシステムにとって実用的な効率的な強化学習が可能になります。ビデオ結果、オープンソースコードおよびデータセットは https://sermanet.github.io/imitate で入手できます。