2ヶ月前

RGB-D動画からの空間時間構造学習による人間行動検出および予測

{Hema S. Koppula, Ashutosh Saxena}

要約

過去の行動を検出するだけでなく、将来どの行動がいつどのように起こるかを予測する問題に取り組む。まず、人間のポーズと物体との間の豊かな空間時間的関係（通称：アフォーダンス）を条件付き確率場（CRF）を用いてモデル化する。しかしながら、行動を構成するサブアクティビティの時系列的セグメンテーションには不確実性が伴うため、過去および未来の両方において複数のグラフ構造が可能となる。本論文では、こうした代替可能な可能性を複数の可能なグラフ構造を考慮することで推論する。これらのグラフ構造は、加算型特徴のみを用いたグラフの近似により得られ、効率的な動的計画法の適用が可能となる。この初期の提案グラフ構造を出発点として、さらに複数の有望なグラフ構造を生成するための移動操作を設計する。実験では、4名の被験者から収集した120本の行動映像から構成されるデータセットにおいて、過去の行動検出および未来の行動予測の両面で、従来の最先端技術を顕著に上回る性能を示した。