人間とシーンの密接な全身接触の捕捉と推論

人間とシーンの接触(Human-Scene Contact: HSC)を推論することは、人間が周囲環境とどのように相互作用するかを理解するための第一歩です。2次元の人間-物体相互作用(Human-Object Interaction: HOI)の検出や3次元の人間姿勢と形状(Human Pose and Shape: HPS)の再構成は著しい進展を遂げていますが、単一画像から3次元の人間-シーン接触を推論することは依然として困難な課題となっています。既存のHSC検出手法は、事前に定義された少数の接触タイプのみを考慮し、身体やシーンを少数のプリミティブに簡略化することが多いだけでなく、画像証拠を見落とすこともあります。単一画像から人間-シーン接触を予測するために、データ面とアルゴリズム面から上記の制限に対処します。私たちは「リアルなシーン、相互作用、接触、人間」(Real scenes, Interaction, Contact and Humans: RICH)という新しいデータセットを収集しました。RICHには4K解像度で撮影された多視点屋外/屋内ビデオシーケンス、マーカーレスモーションキャプチャを使用して取得した真値3次元人体モデル、3次元ボディスキャン、および高解像度3次元シーンスキャンが含まれています。RICHの重要な特徴は、身体上の正確な頂点レベルでの接触ラベルも含まれていることです。RICHを使用して、単一RGB画像から密集した身体-シーン接触を予測するネットワークを訓練しました。私たちの主な洞察は、接触している領域は常に隠蔽されているため、ネットワークが必要とする証拠を探るために全体的な画像を探査する能力が必要であるということです。このような非局所的な関係性を学習するためにトランスフォーマーを利用し、「Body-Scene 接触 TRansfOrmer」(BSTRO)という新しいアプローチを提案します。3次元接触を探求する手法は非常に少ないですが、それらがある場合でも足部に焦点を当てているか、足部接触を後処理ステップで検出したり、シーンを見ずに身体姿勢から接触を推論したりしています。当該研究ではBSTROが単一画像から直接3次元身体-シーン接触を推定する最初の手法であることが確認されています。我々は実験を通じてBSTROが従来技術よりも大幅に優れていることを示しています。コードとデータセットはhttps://rich.is.tue.mpg.de で公開されています。