6ヶ月前

概要

複雑な状況下におけるマルチフレーム人体ポーズ推定は、依然として大きな課題である。最先端の人体関節検出器は静止画像において優れた成果を示しているが、動画シーケンスにこれらのモデルを適用した場合、その性能は著しく低下する。主な課題として、運動ブラー、動画の合焦不良、ポーズの隠蔽（オクルージョン）の処理が困難になることが挙げられ、これは動画フレーム間の時間的依存関係を適切に捉えられないことに起因する。一方で、従来の再帰型ニューラルネットワーク（RNN）を直接適用すると、空間的文脈のモデリングが困難となり、特にポーズの隠蔽に対処する際に問題が生じる。本論文では、動画フレーム間の豊富な時間的情報を活用してキーポイント検出を支援する、新たなマルチフレーム人体ポーズ推定フレームワークを提案する。本フレームワークには3つのモジュールを設計している。まず、Pose Temporal Mergerは、キーポイントの空間時間的文脈を符号化し、効果的な探索範囲を生成する。次に、Pose Residual Fusionモジュールは、双方向に重み付きのポーズ残差を計算する。これらはその後、Pose Correction Networkにより処理され、ポーズ推定の効率的な修正が行われる。本手法は、大規模ベンチマークデータセットであるPoseTrack2017およびPoseTrack2018における「マルチフレーム人間ポーズ推定チャレンジ」で第1位を獲得した。本研究のコードを公開し、今後の研究の発展を促すことを期待している。

ソースPDF