
要約
我々は、制約のない動画においてオンラインで手の検出と追跡を同時に実行できる新しい畳み込み型アーキテクチャ「HandLer」を提案する。HandLerは、追加の3つの新規ステージを備えたカスケードRCNNに基づいている。最初のステージは「前方伝播(Forward Propagation)」であり、前フレーム t−1 で検出された手とその推定された運動に基づき、その特徴をフレーム t に伝播する。2番目のステージは「検出と後方回帰(Detection and Backward Regression)」であり、前方伝播の出力を用いてフレーム t における手の検出および、それらが前フレーム t−1 において相対的にどの位置にあるかを推定する。3番目のステージでは、既存の人体ポーズ推定手法を用いて、断片化した手のトラックレットを連結する。前方伝播、後方回帰、検出の各ステージは、カスケードRCNNの他のコンポーネントと一体的にエンドツーエンドで学習される。HandLerの学習および評価のために、手の位置とその軌道をラベル付けした、初めての挑戦的で大規模な制約のない動画データセット「YouTube-Hand」を提供する。このデータセットおよび他のベンチマークにおける実験結果から、HandLerが既存の最先端追跡アルゴリズムを大きく上回ることが示された。