17日前

人間のパーシングとポーズネットワークを統合した人間行動認識

Runwei Ding, Yuhang Wen, Jinfu Liu, Nan Dai, Fanyang Meng, Mengyuan Liu

要約

人間の骨格データとRGB動画シーケンスは、人間の行動認識において広く用いられる入力モダリティである。しかし、骨格データは外見的特徴を欠き、RGBデータは衣装や背景など無関係な情報を多く含むという課題がある。これを解決するために、本研究では人間のパーシング特徴マップ（human parsing feature map）を新たなモダリティとして導入する。この特徴マップは、体部位の時空間的特徴を選択的に保持しつつ、衣装や背景などノイズとなる情報を効果的に除去できる点が利点である。そこで、骨格データと人間パーシング特徴マップの両方を二本のブランチ構造で統合する、行動認識用の新しいネットワークモデル「IPP-Net（Integrating Human Parsing and Pose Network）」を提案する。これは、骨格と人間パーシング特徴マップを同時に活用する初めてのアプローチである。骨格ブランチでは、グラフ畳み込みネットワーク（GCN）を用いて、異なるモダリティからのコンパクトな骨格表現を入力し、ポーズ特徴をモデル化する。一方、パーシングブランチでは、人間検出器とパーシングモデルを用いて複数フレームにわたる体部位の分割特徴を抽出し、その後、畳み込み型バックボーンにより特徴を学習する。最終的な予測は、二つのブランチの結果を後段でアンサンブル（late ensemble）することで得られ、頑健なキーポイント情報と豊かな意味的体部位特徴の両方を活用する。NTU RGB+DおよびNTU RGB+D 120のベンチマーク上で実施した広範な実験により、提案手法の有効性が一貫して検証され、既存の行動認識手法を上回る性能を達成した。本研究のコードは、公開されており、GitHubにて提供されている：https://github.com/liujf69/IPP-Net-Parsing。