1ヶ月前

ビデオからの物体の構造と動態の非監督学習

Matthias Minderer; Chen Sun; Ruben Villegas; Forrester Cole; Kevin Murphy; Honglak Lee
ビデオからの物体の構造と動態の非監督学習
要約

監督なしで動画から物体の構造と動態を抽出し予測することは、機械学習における主要な課題である。この課題に対処するために、キーポイントベースの画像表現を採用し、キーポイントの確率的な動態モデルを学習する。将来のフレームは、キーポイントと参照フレームから再構成される。キーポイント座標空間での動態モデリングにより、安定した学習が達成され、ピクセル空間での誤差の累積を回避できる。当手法は、ピクセルレベルの動画予測だけでなく、運動動態のオブジェクトレベルの理解が必要な下流タスクにおいても非構造化表現よりも優れている。我々は多様なデータセットでモデルを評価した:複数エージェントのスポーツデータセット、Human3.6Mデータセット、およびDeepMind Control Suiteに基づく連続制御タスクのデータセットである。空間的に構造化された表現は、物体追跡や行動認識、報酬予測などの一連の運動関連タスクにおいて非構造化表現を上回った。