1ヶ月前
スリムスライシングネットワーク:ビデオにおける姿勢推定のための深層構造モデル
Jie Song; Limin Wang; Luc Van Gool; Otmar Hilliges

要約
深層ConvNets(Deep ConvNets)は、単一画像からの人体姿勢推定タスクにおいて有効であることが示されています。しかし、ビデオベースのケースでは、自己遮蔽、動きによるぼかし、および訓練データセットに例が少ないまたは存在しない非日常的な姿勢などの課題が生じます。時間情報は、体の関節位置に関する追加の手がかりを提供し、これらの問題を緩和するのに役立ちます。本論文では、制約のないビデオにおける一連の人間の姿勢を推定するための深層構造モデルを提案します。このモデルは効率的にエンドツーエンドで学習でき、体の関節の外観とその空間・時間的な関係性を同時に表現することができます。人間の体に関するドメイン知識がネットワークに明示的に組み込まれており、骨格構造を正則化し、時間的一貫性を強制する効果的な事前情報を提供します。提案されたエンドツーエンドアーキテクチャは、ビデオベースの姿勢推定で広く使用されている2つのベンチマーク(Penn Action データセットとJHMDB データセット)で評価されました。当手法は既存の最先端手法を大幅に上回る性能を示しました。