17日前
UPose3D:視点間および時間的ヒントを活用した不確かさを考慮した3D人体ポーズ推定
Vandad Davoodnia, Saeed Ghorbani, Marc-André Carbonneau, Alexandre Messier, Ali Etemad

要約
我々は、マルチビュー3次元人体ポーズ推定における新たなアプローチであるUPose3Dを提案する。本手法は、精度とスケーラビリティの課題に取り組むものであり、従来のポーズ推定フレームワークを進化させ、直接的な3次元アノテーションを必要とせずに、より高いロバスト性と柔軟性を実現する。本手法の核となるのは、単一画像上で動作する2次元キーポイント推定器の予測を、時系列情報および複数視点間の情報を活用して精緻化する「ポーズコンパイラモジュール」である。我々が提案する新規な複数視点融合戦略は、カメラ数に依存せずに任意の数のカメラに対してスケーラブルであり、合成データ生成戦略により、多様な被験者、シーン、視点にわたる汎化性能を確保している。さらに、UPose3Dは2次元キーポイント推定器およびポーズコンパイラモジュールの予測不確実性を活用することで、外れ値やノイズの影響に対して高いロバスト性を実現し、分布外(out-of-distribution)設定において最先端の性能を達成している。また、分布内(in-distribution)設定においても、3次元アノテーションに依存する手法と同等の性能を発揮しつつ、2次元ラベルのみを用いる手法の中で最も優れた性能を示している。