18日前

空間時系列クロスアテンションを用いた3D人体ポーズ推定

{Ting Yao, Richang Hong, Yanbin Hao, Zhaofan Qiu, Zhenhua Tang}
空間時系列クロスアテンションを用いた3D人体ポーズ推定
要約

最近、Transformerを基盤とする手法は、3次元人体ポーズ推定において著しい成果を上げている。しかし、関節間の類似性行列(affinity matrix)を計算する際、計算コストは関節数の増加に伴い二次的に増大するという課題がある。この欠点は、動画シーケンスにおけるポーズ推定において特に顕著となり、動画全体にわたる空間時系列相関を捉える必要があるため、計算負荷がさらに増大する。本論文では、相関学習を空間的および時系列的要因に分解することでこの問題を緩和し、新たな空間時系列クロスアテンション(Spatio-Temporal Criss-cross Attention, STC)ブロックを提案する。技術的に、STCは入力特徴量をチャネル次元に沿って均等に二分割し、それぞれに対して空間アテンションと時系列アテンションを独立して適用する。その後、アテンション層の出力を連結することで、同一フレーム内の関節間の相互作用と、同一軌道上の関節間の相互作用を同時にモデル化する。このSTCブロックを複数層積み重ねることでSTCFormerを構築し、さらに人間の体の構造を考慮した新たな構造強化型位置埋め込み(Structure-enhanced Positional Embedding, SPE)を導入する。SPEは二つの構成要素からなる:近隣関節周辺における空間時系列畳み込みにより局所構造を捉える部分と、各関節がどの身体部位に属するかを示す部位認識型埋め込み部分である。本研究では、Human3.6MおよびMPI-INF-3DHPのベンチマーク上で広範な実験を実施し、最先端手法と比較して優れた結果を得た。特に注目すべきは、STCFormerが現在までに発表された最高の性能を達成した点であり、困難なHuman3.6Mデータセットにおいて40.5mmのP1誤差を記録した。

空間時系列クロスアテンションを用いた3D人体ポーズ推定 | 最新論文 | HyperAI超神経