
要約
私たちは、単眼画像における\emph{完全自動的な2Dおよび3Dヒューマンセンシング}(DMHS)、特に\emph{認識と再構築}のために、深層マルチタスクアーキテクチャを提案します。このシステムは、フィギュア-グラウンド分割を計算し、ピクセルレベルで人間の身体部位を意味的に識別し、さらに人物の2Dおよび3D姿勢を推定します。モデルは、初期処理段階が後続のより複雑な計算に再帰的にフィードバックされる多タスク損失を通じて、すべてのコンポーネントの共同学習をサポートします。これにより精度と堅牢性が向上します。設計上、複数のデータセットを利用することで、制限的なカバレッジしか提供しない特定のモデルコンポーネントにのみ対応するデータセットを使用することなく、完全な学習プロトコルを確立することが可能となります。複雑な2D画像データ(身体部位ラベリングなし、3D基準真値なし)や2D背景変動が限定的な複雑な3Dデータなどです。詳細な実験では、いくつかの課題のある2Dおよび3Dデータセット(LSP, HumanEva, Human3.6M)を使用して、モデルのサブ構造を評価し、さまざまな種類の学習データがマルチタスク損失に与える影響を分析しました。その結果、すべての処理レベルにおいて最先端の成果が得られることを示しています。また野外環境での評価では、RGB-Dデータに基づく最先端(商業用)Kinectシステムと比較しても、我々の単眼RGBアーキテクチャが知覚的に競争力があることを示しています。