3ヶ月前

深層学習に基づく構成的モデルによる人体ポーズ推定

{Wei Tang, Ying Wu, Pei Yu}
深層学習に基づく構成的モデルによる人体ポーズ推定
要約

構成モデルは、意味のある部分およびその部分の部分からなる階層構造でパターンを表現する。こうしたモデルは、人体の部位間の高次な関係性を特徴づける能力に優れており、人体ポーズ推定(HPE)における低レベルの曖昧性を解消する助けとなる。しかし、従来の構成モデルは、部分と部分の関係性について現実的でない仮定を置いており、複雑な構成パターンを適切に表現できないという課題を抱えていた。さらに、高レベルの部分の状態空間が指数関数的に大きくなるため、推論および学習の両面で著しい複雑性が生じていた。こうした問題に対処するために、本論文では人体ポーズ推定のための新しい枠組みである「深層学習型構成モデル(Deeply Learned Compositional Model, DLCM)」を提案する。本モデルは深層ニューラルネットワークを活用し、人体の構成性を学習する。これにより、階層的な構成アーキテクチャを持つネットワークと、下位から上位へ、および上位から下位へと推論を行う二段階の推論プロセスを実現する。さらに、骨格に基づく新たな部位表現を提案する。この表現は、部位の方向、スケール、形状を効率的に符号化するだけでなく、それらがもたらす巨大な状態空間を回避する効果もある。著しく低い計算複雑性を実現しつつ、3つのベンチマークデータセットにおいて、最先端の手法を上回る性能を達成した。