2ヶ月前
XNect: 単一RGBカメラを用いたリアルタイム多人数3次元動作捕捉
Dushyant Mehta; Oleksandr Sotnychenko; Franziska Mueller; Weipeng Xu; Mohamed Elgharib; Pascal Fua; Hans-Peter Seidel; Helge Rhodin; Gerard Pons-Moll; Christian Theobalt

要約
私たちは、単一のRGBカメラを使用して30 fpsを超える速度で複数人の3次元動作をリアルタイムにキャプチャする手法を提案します。この手法は、物体や他の人物による遮蔽が含まれる一般的なシーンでも成功裏に動作します。私たちの方法は、連続的な段階で行われます。最初の段階では、全員の可視関節に対する2次元および3次元姿勢特徴量と同一性割り当てを推定する畳み込みニューラルネットワーク(CNN)を使用します。このCNNのために、新しいアーキテクチャであるSelecSLS Netを貢献しました。SelecSLS Netは、新しい選択的な長距離と短距離スキップ接続を使用することで情報フローを改善し、精度を損なうことなく大幅に高速化したネットワークを実現しています。次の段階では、完全に接続されたニューラルネットワークが各被験者の部分的に欠落している可能性のある(遮蔽により)2次元姿勢特徴量と3次元姿勢特徴量を完全な3次元姿勢推定値に変換します。最後の段階では、各被験者に対して予測された2次元姿勢と3次元姿勢に空間時間骨格モデル適合を適用し、2次元姿勢と3次元姿勢の整合性をさらに高めるとともに、時間的連続性を確保します。私たちの手法は、各被験者について関節角度で完全な骨格姿勢を返します。これは、複数人のシーンでリアルタイムに一貫した骨格の関節角度結果を生成しない以前の研究とは異なる重要な点です。提案システムは、512x320ピクセルの画像入力に対して消費機器上でこれまでにない速度で30 fps以上で動作し、最先端の精度を達成します。これについては、一連の困難な実世界シーンでのデモンストレーションによって示す予定です。