17日前
MHFormer:3次元人体ポーズ推定のためのマルチ仮説Transformer
Wenhao Li, Hong Liu, Hao Tang, Pichao Wang, Luc Van Gool

要約
単眼動画から3次元人体ポーズを推定することは、深度の曖昧さや自己遮蔽(self-occlusion)のため、非常に困難な課題である。既存の多くの研究では、空間的および時間的関係性を活用することでこれらの問題を解決しようとしている。しかし、それらの手法は、この問題が複数の妥当な解(すなわち仮説)が存在する逆問題であるという事実を無視している。この制約を緩和するために、本研究では複数の妥当なポーズ仮説の空間時間的表現を学習するマルチ仮説トランスフォーマー(Multi-Hypothesis Transformer, MHFormer)を提案する。多仮説間の依存関係を効果的にモデル化し、仮説特徴間の強固な関係を構築するため、このタスクを以下の3段階に分解する:(i) 複数の初期仮説表現を生成する;(ii) 仮説内通信をモデル化し、複数の仮説を1つの収束表現に統合した後、それを複数の分散した仮説に再分割する;(iii) 仮説間通信を学習し、多仮説特徴を統合して最終的な3次元ポーズを合成する。上記のプロセスを通じて、最終的な表現が強化され、合成されたポーズの精度が大幅に向上する。広範な実験の結果、MHFormerはHuman3.6MおよびMPI-INF-3DHPという2つの困難なデータセットにおいて、最先端の性能を達成した。装飾的な追加要素を一切用いずに、Human3.6Mにおいて既存の最良手法を3%以上上回る性能を発揮した。コードとモデルは以下のURLから公開されている:\url{https://github.com/Vegetebird/MHFormer}。