
要約
単一の深度画像からの3次元手の姿勢推定は、コンピュータビジョンおよびヒューマン-コンピュータインタラクションにおいて重要な課題です。深層学習手法の進歩により精度が大幅に向上しましたが、人間の手の複雑な構造のために問題は依然として解決が困難です。現存する深層学習を用いた方法では、手の構造の空間情報が失われたり、関節座標に対する直接的な教師信号が不足したりすることがあります。本論文では、これらの問題を解決するために新しい画素単位回帰法(Pixel-wise Regression method)を提案します。この方法では、空間形状表現(Spatial-Form Representation: SFR)と微分可能なデコーダ(Differentiable Decoder: DD)を使用します。我々の方法を用いるためには、モデルを構築し、特定のSFRとそれに伴うDDを設計しました。このモデルでは、3次元関節座標を平面座標と深度座標に分割し、それぞれに対処するためのPlane Regression (PR) モジュールとDepth Regression (DR) モジュールを使用しています。我々はアブレーション実験を行い、提案した方法が従来の方法よりも優れた結果を得ることを示しました。また、異なる訓練戦略が学習されたSFRと結果にどのように影響を与えるかについても調査を行いました。3つの公開データセットでの実験結果は、我々のモデルが既存の最先端モデルと同等であることを示しており、そのうち1つのデータセットでは平均3次元関節誤差を25%削減できました。