9日前
骨ベースのポーズ分解を用いた骨格に配慮した3D人体ポーズ推定
Tianlang Chen, Chen Fang, Xiaohui Shen, Yiheng Zhu, Zhili Chen, Jiebo Luo

要約
本研究では、動画における3次元人体ポーズ推定のための新たな手法を提案する。従来の3次元関節位置を直接回帰するアプローチとは異なり、人間の骨格構造の生物学的特性に着目し、タスクを「骨の方向予測」と「骨の長さ予測」に分解する。これらの情報を組み合わせることで、3次元関節位置を完全に再構成可能となる。このアプローチの動機は、人間の骨格における骨の長さが時間的に一定であるという事実にある。この性質を活かし、動画全体のフレームにわたるグローバルな情報を効果的に利用して、高精度な骨長さ予測を実現するための手法を開発した。さらに、骨の方向予測ネットワークに対して、時間的に高コストなメモリユニット(例:LSTMなど)を用いずに、階層的に異なる骨の方向を予測できる、完全畳み込み型の伝搬構造を提案する。また、骨長さ予測ネットワークと骨方向予測ネットワークの訓練を橋渡しするため、新規の「ジョイントシフト損失(joint shift loss)」を導入した。最終的に、2次元キーポイントの可視性スコアをモデルに追加のガイダンスとして取り込む、暗黙的なアテンション機構を採用することで、多くの困難なポーズにおける奥行きの不確かさを顕著に低減した。提案モデルは、Human3.6MおよびMPI-INF-3DHPデータセットにおいて、従来の最高性能を上回り、包括的な評価を通じて本手法の有効性が実証された。