2ヶ月前

深度マップからのアクション認識：深層畳み込みニューラルネットワークを用いた手法

{Jing Zhang, Wanqing Li, Zhimin Gao, Philip Ogunbona, Chang Tang, Pichao Wang}

要約

本稿では、小規模なトレーニングデータセットにおける深度マップから人間の行動認識を行うための新規手法、すなわち重み付き階層的深度運動マップ（WHDMM）と三チャンネル深層畳み込みニューラルネットワーク（3ConvNets）を提案する。行動認識において判別的特徴を抽出する能力を最大限に活かすために、3つの戦略を構築した。第一に、撮影された深度マップの3次元点を回転させることで、異なる視点を模倣する。これにより、より多くの合成データが得られるだけでなく、訓練されたConvNetsが視点変化に耐性を持つようになる。第二に、複数の時間スケールにおけるWHDMMを構築し、行動の空間時間的運動パターンを2次元空間構造に符号化する。さらに、WHDMMを擬似色画像に変換することで、これらの2次元空間構造を認識に適した形で強化する。第三に、3つのConvNetsはImageNetで事前学習されたモデルで初期化され、3つの直交平面に構築された色符号化WHDMM上で個別に微調整される。提案手法は、MSRAction3D、MSRAction3DExt、UTKinect-Action、MSRDailyActivity3Dの各データセットに対して、被験者間評価プロトコルを用いて評価された。さらに、上記データセットを統合して構築した大規模データセットでも評価を行った。その結果、多数の個別データセットにおいて、既存手法と比較して2〜9%の性能向上を達成した。特に、大規模データセットにおいても、提案手法は安定した性能を維持したのに対し、既存手法は行動クラス数の増加に伴い性能が低下する傾向を示した。