17日前
PoTion:行動認識のためのポーズモーション表現
{Jérôme Revaud, Vasileios Choutas, Cordelia Schmid, Philippe Weinzaepfel}

要約
現在の最先端の行動認識手法の多くは、外見(appearance)と運動(motion)を独立して処理する二重ストリームアーキテクチャに依存している。本論文では、これらを統合的に考慮することで、行動認識に豊かな情報を得られると主張する。我々は、特定の意味論的キーポイントの動きを滑らかに表現する新しい表現手法を提案する。このキーポイントとして人体関節を用い、提案手法を「Pose moTion」(PoTion)と命名する。具体的には、最先端の人体ポーズ推定器を用いて各フレームにおける人体関節のヒートマップを抽出し、それらの確率マップを時間的に集約することでPoTion表現を構築する。この集約は、動画クリップ内の各フレームの相対時間に応じてそれぞれのヒートマップを色分けし、それらを合算することで実現される。この固定サイズの表現は、浅い畳み込みニューラルネットワーク(CNN)を用いた行動分類に適している。実験評価の結果、PoTionは他の最先端のポーズ表現を上回る性能を示した。さらに、従来の外見ストリームおよび運動ストリームと補完的な関係にあることも明らかになった。最近の二重ストリームI3Dアプローチ[5]とPoTionを組み合わせることで、JHMDB、HMDB、UCF101の各データセットにおいて、現時点で最も高い性能を達成した。