7ヶ月前

概要

本論文では、実世界における3次元ヒューマンポーズ推定の問題に取り組んでいます。重要な課題は、3次元ポーズが注釈された人間の2次元画像という訓練データの不足です。このようなデータは、最先端のCNN（畳み込みニューラルネットワーク）アーキテクチャを訓練するために必要不可欠です。ここでは、3次元ポーズ注釈付きの光リアルな合成画像の大規模セットを生成する解決策を提案します。私たちは、2次元ヒューマンポーズ注釈付きの実画像データセットを3次元モーションキャプチャ（MoCap）データを使用して人工的に拡張する画像ベースの合成エンジンを導入します。候補となる3次元ポーズに対して、各関節ごとに投影された3次元ポーズと局所的に一致する2次元ポーズを持つ画像を選択するアルゴリズムを開発しました。選択された画像は、運動学的な制約のもとで局所的な画像パッチを接合することで新しい合成画像を生成するために使用されます。生成された画像は、全身の3次元ポーズ推定を行うエンドツーエンドCNNの訓練に利用されます。私たちは訓練データを多数のポーズクラスにクラスタリングし、Kウェイ分類問題としてポーズ推定に取り組みます。このようなアプローチは、私たちのような大規模な訓練セットがある場合のみ可能となります。私たちの方法は制御環境下（Human3.6M）での3次元ポーズ推定において現行最良の手法を超える結果を示し、実世界画像（LSP）に対する推定でも有望な結果を得ています。これは、人工的な画像で訓練されたCNNが実際の画像にも良好に一般化することを示しています。

ソースPDF