17日前

人間の行動認識:ポーズ推定マップの進化としての認識

{Mengyuan Liu, Junsong Yuan}
人間の行動認識:ポーズ推定マップの進化としての認識
要約

多くの動画ベースの行動認識手法は、動画全体から特徴を抽出して行動を認識するアプローチを採用している。しかし、雑多な背景や非行動的な運動が存在するため、これらの手法の性能は制限される。その理由は、人間の身体運動を明示的にモデル化していないためである。近年の人体ポーズ推定技術の進展を踏まえ、本研究では、人体ポーズ推定マップの時間的変化として行動を認識する新しい手法を提案する。動画から推定された不正確な人体ポーズに依存するのではなく、ポーズ推定の副産物として得られるポーズ推定マップが、人体に関するより豊かな手がかりを保持していることに着目した。具体的には、ポーズ推定マップの時間的変化は、確率的マップであるヒートマップの変化と、推定された2次元人体ポーズの変化に分解できる。前者は身体形状の変化を、後者は身体ポーズの変化をそれぞれ表す。ヒートマップのスパース性に着目し、空間的ランクプーリング(spatial rank pooling)を提案して、ヒートマップの時間的変化を身体形状の変化を表す画像として集約する。一方、身体形状変化画像は部位ごとの差を区別できないため、身体ガイド付きサンプリング(body guided sampling)を設計し、ポーズの時間的変化を身体ポーズ変化を表す画像として集約する。これらの二種類の画像が持つ補完的な性質を、深層畳み込みニューラルネットワークを用いて活用し、行動ラベルを予測する。NTU RGB+D、UTD-MHAD、PennActionの各データセットにおける実験により、本手法の有効性が検証され、多数の最先端手法を上回る性能を達成した。

人間の行動認識:ポーズ推定マップの進化としての認識 | 最新論文 | HyperAI超神経