PoseFormerV2: 周波数領域を用いた効率的で堅牢な3D人間姿勢推定の探索

最近、トランスフォーマーを基盤とする手法が、逐次的な2Dから3Dへのヒューマンポーズ推定において著しい成功を収めています。先駆的な研究として、PoseFormerは連続したトランスフォーマー層を用いて各ビデオフレーム内のヒューマンジョイントの空間関係とフレーム間の人間の動態を捉え、印象的な性能を達成しました。しかし、実際のシナリオでは、PoseFormerおよびその派生手法の性能は以下の2つの要因により制限されています:(a) 入力ジョイントシーケンスの長さ;(b) 2Dジョイント検出の品質。既存の手法は通常、入力シーケンスのすべてのフレームに自己注意(self-attention)を適用しますが、これにより推定精度向上のためにフレーム数を増やすと大きな計算負荷が発生し、また2Dジョイント検出器の限られた能力によって自然に発生するノイズに対して堅牢性が不足しています。本論文では、PoseFormerV2を提案します。この手法は周波数領域で長い骨格シーケンスのコンパクトな表現を利用することで、受容野(receptive field)を効率的に拡大し、ノイジーな2Dジョイント検出に対する堅牢性を向上させます。PoseFormerに対して最小限の変更を行うことで、提案手法は時間領域と周波数領域での特徴量融合を効果的に実現し、前モデルよりも優れた速度-精度トレードオフを享受しています。Human3.6MおよびMPI-INF-3DHPという2つのベンチマークデータセットにおける広範な実験結果から、提案アプローチが元々のPoseFormerや他のトランスフォーマーベースのバリエーションに対して大幅に優れていることが示されました。コードは\url{https://github.com/QitaoZhao/PoseFormerV2}で公開されています。