
要約
本論文は、畳み込みニューラルネットワーク(CNN)を使用した人間の姿勢推定について述べています。当研究の主な貢献は、部位関係と空間コンテキストを学習し、特に部位が重度に隠れている場合でも堅牢に姿勢を推定するための特別に設計されたCNNカスケードアーキテクチャです。この目的のために、当研究では検出後に回帰を行うCNNカスケードを提案します。カスケードの最初の部分は部位検出ヒートマップを出力し、次の部分ではこれらのヒートマップに対する回帰を行います。提案されたアーキテクチャの利点は多岐にわたります。まず、ネットワークが画像の中でどの部分に注目すべきかを導きます。また、部位制約とコンテキストを効果的に符号化します。さらに重要なのは、隠れた部位の検出ヒートマップが低い信頼度スコアを提供することにより、回帰部分がコンテキスト情報に依存してこれらの部位の位置を予測することが可能になることです。隠れた部位の検出ヒートマップは低い信頼度スコアを持つため、当研究のネットワークはそれらに基づいて部位位置を予測するためにコンテキスト情報を活用します。また、提案されたカスケードアーキテクチャは柔軟性が高く、検出と回帰の両方のために様々なCNNアーキテクチャ(残差学習に基づく最近のものも含む)を容易に統合できることが示されています。最後に、当研究のカスケードアーキテクチャがMPIIおよびLSPデータセットでトップクラスの性能を達成していることを示しています。コードは以下のURLからダウンロードできます:http://www.cs.nott.ac.uk/~psxab5/