2ヶ月前
多文脈注意を用いた人間の姿勢推定
Xiao Chu; Wei Yang; Wanli Ouyang; Cheng Ma; Alan L. Yuille; Xiaogang Wang

要約
本論文では、ヒューマンポーズ推定のエンドツーエンドフレームワークに、畳み込みニューラルネットワークとマルチコンテキストアテンションメカニズムを組み込むことを提案します。我々はスタックされたアワーガラスネットワークを採用し、異なる意味を持つ複数の解像度の特徴からアテンションマップを生成します。条件付き確率場(Conditional Random Field: CRF)を用いて、アテンションマップ内の隣接領域間の相関関係をモデル化します。さらに、全体的な一貫性に焦点を当てるホリスティックアテンションモデルと、各部位の詳細な記述に焦点を当てるボディパーツアテンションモデルを組み合わせます。これにより、我々のモデルは局所的な注目領域から全体的な意味的一貫性のある空間まで、異なる粒度に焦点を当てる能力を持ちます。また、ネットワークの受容野を拡大するため、新しいHourglass Residual Units (HRUs) を設計しました。これらのユニットは残差ユニットの拡張版であり、側枝に大きな受容野を持つフィルターを取り入れることで、さまざまなスケールの特徴が学習され結合されます。提案したマルチコンテキストアテンションメカニズムおよびアワーガラス残差ユニットの有効性は、広く使用されている2つのヒューマンポーズ推定ベンチマークで評価されました。我々の手法は両方のベンチマークにおいてすべての身体部位で既存の方法を超える性能を示しました。