17日前
HandFoldingNet:2D手部骨格のマルチスケール特徴誘導折り畳みを用いた3D手部ポーズ推定ネットワーク
Wencan Cheng, Jae Hyun Park, Jong Hwan Ko

要約
3次元手の姿勢推定は、さまざまな人間-コンピュータインタラクション(HCI)アプリケーションにおいてますます重要な役割を果たしている。これに伴い、畳み込みニューラルネットワーク(CNN)に基づく推定モデルの研究が活発に行われている。しかし、既存のモデルは、妥当な精度を確保するために、複雑なアーキテクチャや冗長な計算リソースを必要としているという課題がある。この制約を克服するため、本論文では、正規化された3次元手の点群入力から手の関節位置を回帰する、高精度かつ効率的な手の姿勢推定モデル「HandFoldingNet」を提案する。本モデルは、2次元手の骨格を入力として、対応する関節座標に「折り畳み(folding)」する方式のデコーダを採用している。さらに、高い推定精度を実現するため、グローバルな特徴と関節ごとの局所的特徴を含むマルチスケール特徴によって折り畳みプロセスがガイドされる。実験の結果、提案手法は3つの手の姿勢ベンチマークデータセットにおいて、既存手法を上回る性能を示し、同時に最も少ないモデルパラメータ数で実現していることが確認された。コードは以下のGitHubリポジトリで公開されている:https://github.com/cwc1260/HandFold。