17日前
カメラ分離表現を用いた軽量なマルチビュー3Dポーズ推定
Edoardo Remelli, Shangchen Han, Sina Honari, Pascal Fua, Robert Wang

要約
空間的にキャリブレーションされたカメラで撮影されたマルチビュー画像から3Dポーズを回復するための軽量なソリューションを提示する。最近の解釈可能な表現学習の進展を基盤とし、3D幾何構造を活用して入力画像を統合的なポーズの潜在表現に融合する。この潜在表現はカメラの視点から分離(ディセントラル化)されており、異なる視点間で3Dポーズを計算的に高負荷なボリュームグリッドを用いずに効果的に推論可能である。その後、学習された表現をカメラ投影演算子に条件づけることで、各ビューごとの高精度な2D検出を生成し、微分可能な直接線形変換(DLT)層を介して単純に3D座標に変換できる。効率性を実現するため、従来のSVDに基づく三角測量法と比較してGPUアーキテクチャ上で桁違いに高速なDLTの新規実装を提案する。本手法は、大規模な人体ポーズデータセット(H36MおよびTotal Capture)上で評価された結果、従来のボリュームベースの最先端手法と同等またはそれを上回る性能を達成しつつ、それらとは異なりリアルタイムでの処理を実現している。