HyperAIHyperAI

Command Palette

Search for a command to run...

人間のパーシングとポーズネットワークを統合した人間行動認識

Runwei Ding Yuhang Wen Jinfu Liu Nan Dai Fanyang Meng Mengyuan Liu

概要

人間の骨格データとRGB動画シーケンスは、人間の行動認識において広く用いられる入力モダリティである。しかし、骨格データは外見的特徴を欠き、RGBデータは衣装や背景など無関係な情報を多く含むという課題がある。これを解決するために、本研究では人間のパーシング特徴マップ(human parsing feature map)を新たなモダリティとして導入する。この特徴マップは、体部位の時空間的特徴を選択的に保持しつつ、衣装や背景などノイズとなる情報を効果的に除去できる点が利点である。そこで、骨格データと人間パーシング特徴マップの両方を二本のブランチ構造で統合する、行動認識用の新しいネットワークモデル「IPP-Net(Integrating Human Parsing and Pose Network)」を提案する。これは、骨格と人間パーシング特徴マップを同時に活用する初めてのアプローチである。骨格ブランチでは、グラフ畳み込みネットワーク(GCN)を用いて、異なるモダリティからのコンパクトな骨格表現を入力し、ポーズ特徴をモデル化する。一方、パーシングブランチでは、人間検出器とパーシングモデルを用いて複数フレームにわたる体部位の分割特徴を抽出し、その後、畳み込み型バックボーンにより特徴を学習する。最終的な予測は、二つのブランチの結果を後段でアンサンブル(late ensemble)することで得られ、頑健なキーポイント情報と豊かな意味的体部位特徴の両方を活用する。NTU RGB+DおよびNTU RGB+D 120のベンチマーク上で実施した広範な実験により、提案手法の有効性が一貫して検証され、既存の行動認識手法を上回る性能を達成した。本研究のコードは、公開されており、GitHubにて提供されている:https://github.com/liujf69/IPP-Net-Parsing


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています