
要約
近年、単眼カメラを使用したマーカーレスの人間の動作捕捉において著しい進歩が見られましたが、最先端の手法でも遮蔽状況下での満足できる結果を得るのは依然として困難です。その主な理由は二つあります。一つ目は、遮蔽された動作捕捉が本質的に曖昧であるためで、さまざまな3次元姿勢が同じ2次元観測値にマッピングされることがあり、常に信頼性の低い推定を招きます。二つ目は、十分な遮蔽された人間データがなく、堅牢なモデルの学習に利用できないことです。これらの課題に対処するため、我々の主要なアイデアは非遮蔽の人間データを使用して自己監督戦略により遮蔽された人間に向けた関節レベルの空間時間的な動作事前知識を学習することです。さらに、合成データと実際の遮蔽データとのギャップを縮めるために、初めての3次元遮蔽動作データセット(OcMotion)を構築しました。このデータセットは訓練とテストに使用できます。我々は2次元マップに動作を符号化し、非遮蔽データ上で遮蔽を合成することで自己監督訓練を行います。その後、関節レベルの相関関係を学習するために空間時間層を設計しました。学習した事前知識は遮蔽の曖昧さを軽減し、多様な遮蔽タイプに対して堅牢であり、これを用いて遮蔽状況下の人間の動作捕捉を支援します。実験結果では、我々の手法が良好な汎化能力と実行効率を持つことで、遮蔽された動画から正確かつ一貫性のある人間の動作を生成できることを示しています。データセットとコードは公開されており、以下のURLからアクセスできます: \url{https://github.com/boycehbz/CHOMP}。