要約
本研究では、手の姿勢推定に向けた新たなトランスフォーマーベースの手法「DePOTR」を提案する。我々はDePOTRを4つのベンチマークデータセット上で評価し、他のトランスフォーマーベース手法を上回る性能を示したほか、他の最先端手法と同等の結果を達成した。さらにDePOTRの優れた性能を実証するため、全シーン深度画像から手の姿勢を推定する新たなマルチステージアプローチ「MuTr」を提案する。MuTrは、手の局所化と姿勢推定のための2つの異なるモデルをパイプラインに必要としなくても、良好な結果を維持できる点が特徴である。筆者らの知る限り、本研究は、標準的な設定と同時に全シーン画像設定の両方で、同じモデルアーキテクチャを用いて競争力のある結果を達成した初めての成功例である。NYUデータセットにおいて、DePOTRとMuTrはそれぞれ7.85 mmおよび8.71 mmの精度を達成した。