
要約
単一の深度画像からの3次元手の姿勢推定は、ヒューマンコンピュータインタラクションにとって重要な課題であり、同時に非常に困難な問題でもあります。最近では、洗練された設計を持つ深層畳み込みネットワーク(ConvNet)がこの問題に取り組むために用いられていますが、従来のランダムフォレストに基づく手法に対する改善は必ずしも明確ではありません。手の姿勢推定の実践を活用し、その性能を向上させるため、私たちは直接3次元座標回帰を行う木構造のRegion Ensemble Network (REN) を提案します。まず、ConvNet の最終畳み込み出力をいくつかのグリッド領域に分割します。その後、各領域で個別に行われる全結合(FC)回帰器の結果が別の FC 層によって統合され、推定が行われます。データ拡張や平滑化$L_1$損失などの複数の学習戦略を活用することで、提案した REN は ConvNet の手関節位置特定性能を大幅に向上させることができます。実験結果は、当社の手法が3つの公開手の姿勢データセットにおいて最先端アルゴリズムの中で最良の性能を達成していることを示しています。また、指先検出と人間の姿勢データセットでの実験でも最先端の精度を得ています。注:文中に「法語」という言葉がありますが、「日語」であるべきだと思いますので修正しました。