2ヶ月前
3Dヒューマンポーズのエゴセントリックステレオビデオからの知覚
Akada, Hiroyasu ; Wang, Jian ; Golyanik, Vladislav ; Theobalt, Christian

要約
ヘッドマウントデバイスが小型化する一方で、デバイス使用者の自己遮蔽により、エゴセントリックビューでは複雑な3次元姿勢の正確な推定が困難となることがあります。本研究では、エゴセントリックステレオ3次元人間姿勢推定を改善するために新しいトランスフォーマーベースのフレームワークを提案します。このフレームワークは、エゴセントリックステレオ動画のシーン情報と時間的な文脈を利用します。具体的には、1) エゴセントリックステレオフレームから一様にサンプリングされたウィンドウを使用した3次元シーン再構成モジュールからの深度特徴量と、2) 動画入力の時間特徴量によって強化された人間関節クエリを利用します。当手法は、屈みや座るなどの挑戦的な状況下でも人間の姿勢を正確に推定することができます。さらに、2つの新しいベンチマークデータセットであるUnrealEgo2およびUnrealEgo-RW(RealWorld)を導入します。これらの提案データセットは、既存のデータセットよりも多くのエゴセントリックステレオビューと多様な人間動作を提供し、既存および新規手法の包括的な評価を可能にします。我々の広範な実験結果は、提案手法が以前の手法を大幅に上回ることを示しています。プロジェクトページにてUnrealEgo2、UnrealEgo-RWおよび学習済みモデルを公開予定です。