6ヶ月前

概要

本稿では、マルチビュー・マルチペルソン3次元人体ポーズ推定を対象とした、初めての3次元ボリュームトランスフォーマーフレームワークであるVolumetric Transformer Pose estimator（VTP）を提案する。VTPは、すべてのカメラビューにおける2次元キーポイントから特徴を統合し、エンドツーエンドのフレームワークで3次元ボクセル空間における空間的関係を直接学習する。統合された3次元特徴は、3次元畳み込みを経てフラット化され、順序付き埋め込みとしてトランスフォーマーに入力される。さらに、性能を向上させるためにリジッド構造（残差構造）が設計されている。また、ボリューム表現におけるメモリコストという主要なボトルネックを軽減するため、スパースSinkhornアテンションが導入されており、優れた性能を実現している。トランスフォーマーの出力は、再びリジッド構造により3次元畳み込み特徴と連結される。提案するVTPフレームワークは、トランスフォーマーの高い性能とボリューム表現の強みを統合しており、畳み込みベースのバックボーンの優れた代替手段として利用可能である。Shelf、Campus、CMU Panopticのベンチマークにおける実験結果から、Mean Per Joint Position Error（MPJPE）およびCorrectly estimated Partsの割合（PCP）の両面で有望な性能が示された。本研究のコードは公開予定である。

ソースPDF