17日前

人間のポーズを構成的トークンとして扱う

Zigang Geng, Chunyu Wang, Yixuan Wei, Ze Liu, Houqiang Li, Han Hu
人間のポーズを構成的トークンとして扱う
要約

人体ポーズは通常、体節の座標ベクトルまたはそれらのヒートマップ埋め込みによって表現される。これらの手法はデータ処理が容易である一方で、体節間の依存関係をモデル化していないため、現実的でないポーズ推定が生じる可能性がある。本論文では、関節間の依存関係を探索するための構造化表現「Pose as Compositional Tokens(PCT)」を提案する。PCTは、M個の離散的なトークンによってポーズを表現し、各トークンは複数の相互依存する関節からなる部分構造を特徴づける。この構成的な設計により、低コストで小さな再構成誤差を実現できる。さらに、ポーズ推定を分類タスクとして定式化する。具体的には、画像からM個のトークンのカテゴリを予測する分類器を学習する。その後、事前に学習されたデコーダーネットワークを用いて、ポーズをトークンから再構成するが、追加の後処理は不要である。実験の結果、一般的なシナリオにおいて既存手法と同等またはより優れたポーズ推定性能を達成することが示された。特に、実用的な場面で頻発するオクルージョンが発生しても、依然として良好な性能を維持することが確認された。コードおよびモデルは、https://github.com/Gengzigang/PCT にて公開されている。

人間のポーズを構成的トークンとして扱う | 最新論文 | HyperAI超神経