4ヶ月前

粗密ボリューム予測を用いた単一画像3D人間ポーズ推定

Georgios Pavlakos; Xiaowei Zhou; Konstantinos G. Derpanis; Kostas Daniilidis
粗密ボリューム予測を用いた単一画像3D人間ポーズ推定
要約

本論文は、単一のカラー画像から3次元ヒューマンポーズを推定する課題に取り組んでいます。エンドツーエンド学習パラダイムの一般的な成功にもかかわらず、最上位の手法は2次元関節位置の局在化を行う畳み込みニューラルネットワーク(ConvNet)と、その後に3次元ポーズを復元するための最適化ステップからなる2段階の解決策を採用しています。本論文では、現行のConvNetアプローチにおける3次元ポーズ表現が重要な問題であることを指摘し、このタスクに対するエンドツーエンド学習の価値を検証するために2つの重要な貢献を行います。まず、被写体周辺の3次元空間を細かい離散化を行い、各関節に対してボクセルごとの尤度を予測するConvNetを訓練することを提案します。これにより、3次元ポーズの自然な表現が可能となり、関節座標の直接回帰よりも大幅に性能が向上します。次に、初期推定値をさらに改善するために粗い予測から細かい予測へと移行する予測スキームを使用します。このステップは大規模な次元増加に対処し、画像特徴量の反復的な改良と再処理を可能にします。提案されたアプローチは標準的なベンチマークにおいてすべての最先端手法を上回り、平均で相対誤差が30%以上削減されました。さらに、当該アーキテクチャにおいて我々のボリューム表現を使用することについて調査しました。これは我々のエンドツーエンドアプローチに比べて劣るものの実用的な興味を持っています。なぜなら、対応する3次元真値を持つ画像がない場合でも訓練が可能であり、野生環境での画像に対して説得力のある結果を提示できるからです。