
要約
畳み込みニューラルネットワーク(CNN)は、深度画像における3次元手のポーズ推定において有望な成果を示している。既存のCNNベースの手のポーズ推定手法が2次元画像または3次元ボリュームを入力としているのに対し、本研究で提案するHand PointNetは、手の可視表面をモデル化する3次元点群を直接処理し、ポーズ回帰を行う。正規化された点群を入力として用いることで、本提案の手のポーズ回帰ネットワークは複雑な手の構造を捉え、3次元手のポーズの低次元表現を高精度に推定することが可能となる。さらに指先の推定精度を向上させるため、推定された指先位置の近傍点を入力として直接取り込み、指先位置を精緻化する指先精製ネットワークを設計した。3つの挑戦的な手のポーズデータセットにおける実験結果から、本手法が最先端の手法を上回る性能を発揮することが明らかになった。