18日前

モービングポーズレット:行動認識のための判別性および解釈可能性を兼ね備えた骨格運動表現

{René Vidal, Lingling Tao}
モービングポーズレット:行動認識のための判別性および解釈可能性を兼ね備えた骨格運動表現
要約

ビデオまたは骨格データの時系列に対して、行動認識システムは動き、外見、姿勢などの手がかりを用いて分類を行う。過去10年間、行動はBag of Featuresなどの低レベル特徴表現を用いてモデル化されてきた。近年の研究では、体部の動き(例:手が前方に動く)をモデル化する中間レベルの表現が非常に有効であることが示されている。しかし、これらの中間レベル特徴は通常、手作業で設計されており、代表的な特徴の辞書は任意のヒューリスティック手法によって学習される。監視付きスパース辞書学習やニューラルネットワークなどの自動特徴学習手法を用いれば、特徴表現と行動分類器を同時に学習できるが、その結果得られる特徴はしばしば解釈不能となる。これに対して、本研究の目的は、行動認識に適した判別性と解釈可能性を兼ね備えた骨格運動パターンを学習する原理的な特徴学習フレームワークの構築である。そのために、特定の体部構成が特定の運動を遂行している状態を表す新しい体部運動ベースの特徴「Moving Poselet」を提案する。さらに、Moving Poseletと行動分類器を同時に学習するシンプルなアルゴリズムも提案する。MSR Action3D、MSR DailyActivity3D、Berkeley MHADの3つのデータセットにおける実験結果から、本研究で提案する2層モデルが手作業で設計された特徴を用いた他の2層モデルを上回り、複数層のRNNを用いて人体階層をモデル化する最新の多層階層的再帰型ニューラルネットワーク(HRNN)モデルと同等の性能を達成することが示された。