
要約
単一の深度画像からの手の姿勢推定は、コンピュータビジョンおよびヒューマンコンピュータインタラクションにおいて重要なテーマである。最近、畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)の進歩によりこの分野に大きな進展が見られているが、正確な手の姿勢推定は依然として難問である。本論文では、手の姿勢推定の性能向上を目的としたポーズガイデッド構造化リージョンアンサンブルネットワーク(Pose guided structured Region Ensemble Network, Pose-REN)を提案する。提案手法では、初期推定されたポーズをガイドとして、畳み込みニューラルネットワークの特徴マップから領域を抽出し、手の姿勢推定に最適かつ代表的な特徴を生成する。抽出された特徴領域は、手関節のトポロジーに基づいて階層的に統合され、木構造完全接続(tree-structured fully connections)を使用して処理される。提案ネットワークによって直接的に精緻な手の姿勢推定が行われ、最終的な手の姿勢は反復カスケード法を利用して得られる。公開されている手の姿勢データセットに対する包括的な実験結果は、我々の提案手法が最先端アルゴリズムを上回ることを示している。