
要約
人間の姿勢推定は、コンピュータビジョンにおいて基本的かつ挑戦的なタスクです。特に、カメラの視点が変わったり、著しい遠近効果が発生する場合、人間の体部のスケール変動が困難を増しています。ピラミッド手法は推論時にスケール変化を処理するために広く使用されていますが、深層畳み込みニューラルネットワーク(DCNN)での特徴量ピラミッドの学習はまだ十分に研究されていません。本研究では、DCNNのスケール不変性を向上させるためにピラミッド残差モジュール(PRM)を設計しました。入力特徴量に対して、異なるサブサンプリング率で得られた多岐分岐ネットワークにおける様々なスケールの入力特徴量上で畳み込みフィルターを学習します。さらに、最近多くのタスクで優れた性能を達成している多岐分岐ネットワークの重み初期化に既存の手法を使用することは適切ではないと観察しました。したがって、理論的な導出を行い、現在の重み初期化スキームを多岐分岐ネットワーク構造に拡張しました。我々は人間の姿勢推定に関する2つの標準ベンチマークで提案手法を検証しました。本アプローチは両方のベンチマークで最先端の結果を得ています。コードは https://github.com/bearpaw/PyraNet から入手可能です。