
要約
単一の深度画像から3次元手の姿勢を推定するための単純かつ効果的な方法を提案します。従来の最先端手法が全体的な3次元回帰に基づいていたのに対し、当手法は密集した画素ごとの推定に焦点を当てています。これは、深度マップの2次元および3次元特性を活用する姿勢パラメータ化における慎重な設計選択によって達成されます。具体的には、姿勢パラメータを画素ごとの推定値の集合に分解します。つまり、2Dヒートマップ、3Dヒートマップ、および単位3D方向ベクトルフィールドです。2D/3D関節ヒートマップと3D関節オフセットは、マルチタスクネットワークカスケードを通じて推定され、これはエンドツーエンドで学習されます。画素ごとの推定値は直接投票スキームに変換できます。その後、平均シフトの変種を使用して局所的な投票を集約し、設計上推定された3次元姿勢と画素ごとの2次元・3次元推定値との間の一貫性を強制します。当手法は効率的であり、非常に高い精度を誇ります。MSRAおよびNYU手データセットにおいて、当手法は従来のすべての最先端アプローチを大幅に上回っています。ICVL手データセットでは、現在提案されているほぼ飽和状態の結果と同等の精度を達成しつつ、他の様々な提案手法よりも優れています。コードは$\href{"https://github.com/melonwan/denseReg"}{\text{オンライン}}$で入手可能です。