13日前
動画における3D人体ポーズ推定のためのオクルージョン対応ネットワーク
{ Robby T. Tan, Wending Yan, Bo Wang, Bo Yang, Yu Cheng}

要約
単眼動画からの3次元人体ポーズ推定において、遮蔽(occlusion)は重要な課題である。この問題に対処するために、遮蔽を意識した深層学習フレームワークを提案する。本手法では、キーポイントの2次元信頼度ヒートマップの推定値と光流の整合性制約を用いて、遮蔽されたキーポイントに対する信頼性の低い推定値をフィルタリングする。遮蔽が発生した場合、2次元キーポイントは不完全となるが、その不完全な2Dキーポイントを、時間的滑らかさを強制する2次元および3次元時空間畳み込みネットワーク(2Dおよび3D TCN)に供給し、完全な3次元ポーズを生成する。完全だが誤りの多いキーポイントではなく、不完全な2Dキーポイントを用いることで、遮蔽されたキーポイントの誤った推定値の影響をネットワークが低減できる。遮蔽を意識した3D TCNの学習には、遮蔽ラベル付きの3次元ポーズと2次元ポーズのペアが必要となるが、このようなデータセットは存在しない。そこで、3次元空間における身体部位の占有状態を近似する「シリンダー人間モデル(Cylinder Man Model)」を導入する。このモデルを異なる視点から2次元平面に投影することで、遮蔽されたキーポイントを取得・ラベル付けでき、大量の学習データを構築可能となる。さらに、このモデルを用いてポーズ正則化制約を構築し、信頼性の低いキーポイントの2次元推定値が遮蔽されていることを優先させる。実験の結果、Human 3.6MおよびHumanEva-Iデータセットにおいて、最先端の手法を上回る性能を達成した。