
要約
RGB画像からの3Dハンドメッシュ再構成は、拡張現実(AR)を含む多数の応用を可能にする。しかし、これにはリアルタイム性と正確なハンドポーズ・形状の推定に加えて、現実的なメッシュ-画像の整合性(mesh-image alignment)の確保が必要となる。既存の手法はすでに有望な結果を達成しているものの、これら3つの要件を同時に満たすことは極めて困難である。本論文では、ハンドメッシュ再構成タスクを3段階に分離する新しいパイプラインを提案する。第1段階(joint段階)では、ハンドの関節位置とセグメンテーションを予測し、第2段階(mesh段階)で粗いハンドメッシュを生成し、第3段階(refine段階)ではオフセットメッシュを用いてメッシュ-画像の整合性を微調整する。ネットワーク構造および損失関数の精巧な設計により、指レベルの高品質なメッシュ-画像整合性を実現するとともに、モデル全体を統合的に最適化し、リアルタイムな予測を可能にした。ベンチマークデータセットにおける広範な定量的・定性的評価結果から、本手法は、ハンドメッシュ/ポーズの精度およびハンド-画像整合性において、既存の最先端手法を上回る性能を示した。最後に、リアルタイムARを活用したいくつかの応用例も提示している。