
要約
本稿では、2次元から3次元人間のポーズ推定タスク向けに、新たなグラフ畳み込みネットワークアーキテクチャである「グラフスタックドアワーガラスネットワーク(Graph Stacked Hourglass Networks)」を提案する。本アーキテクチャは、人間の骨格表現の3つの異なるスケールにおいて、グラフ構造をもつ特徴量を繰り返しエンコーダ-デコーダ構造で処理するものである。このマルチスケール構造により、モデルは局所的およびグローバルな特徴表現を学習可能となり、3次元人間ポーズ推定において極めて重要な要素を実現する。さらに、異なる深さの中間特徴量を用いたマルチレベル特徴学習手法を導入し、マルチスケールかつマルチレベルな特徴表現を活用することで得られる性能向上を示した。広範な実験を通じて本手法の有効性を検証した結果、最先端の手法を上回る性能を達成したことが確認された。