HyperAIHyperAI
il y a 2 mois

Capture et Inférence du Contact Densément Réparti entre le Corps Humain et la Scène

Huang, Chun-Hao P. ; Yi, Hongwei ; Höschle, Markus ; Safroshkin, Matvey ; Alexiadis, Tsvetelina ; Polikovsky, Senya ; Scharstein, Daniel ; Black, Michael J.
Capture et Inférence du Contact Densément Réparti entre le Corps Humain et la Scène
Résumé

L'inférence du contact humain-scène (HSC) est la première étape vers la compréhension de la manière dont les humains interagissent avec leur environnement. Bien que des progrès significatifs aient été réalisés dans la détection de l'interaction humain-objet en 2D (HOI) et la reconstruction de la posture et de la forme humaine en 3D (HPS), le raisonnement sur le contact humain-scène en 3D à partir d'une seule image reste un défi. Les méthodes actuelles de détection de l'HSC ne prennent en compte que quelques types prédéfinis de contact, réduisent souvent le corps et la scène à un petit nombre de primitives, et négligent même les preuves fournies par l'image. Pour prédire le contact humain-scène à partir d'une seule image, nous abordons ces limitations sous les angles des données et des algorithmes. Nous avons capturé un nouveau jeu de données appelé RICH pour "Scènes réelles, Interaction, Contact et Humains". RICH contient des séquences vidéo multivues en extérieur/intérieur à une résolution de 4K, des corps humains en 3D capturés au moyen d'un suivi du mouvement sans marqueurs, des scans corporels en 3D et des scans de scènes en 3D à haute résolution. Une caractéristique clé de RICH est qu'il inclut également des étiquettes précises au niveau des sommets sur le corps. En utilisant RICH, nous formons un réseau qui prédit les contacts corporels-scène denses à partir d'une seule image RGB. Notre intuition principale est que les régions en contact sont toujours occultées, donc le réseau doit avoir la capacité d'explorer l'ensemble de l'image pour trouver des preuves. Nous utilisons un transformateur pour apprendre ces relations non locales et proposons un nouveau Transformateur de Contact Humain-Scène (BSTRO). Très peu de méthodes explorent le contact en 3D ; celles qui le font se concentrent uniquement sur les pieds, détectent le contact au niveau des pieds comme une étape postérieure au traitement principal ou infèrent le contact à partir de la posture du corps sans prendre en compte la scène. À notre connaissance, BSTRO est la première méthode capable d'estimer directement le contact corporel-scène en 3D à partir d'une seule image. Nous montrons que BSTRO dépasse considérablement les travaux antérieurs. Le code source et le jeu de données sont disponibles à l'adresse https://rich.is.tue.mpg.de.

Capture et Inférence du Contact Densément Réparti entre le Corps Humain et la Scène | Articles de recherche récents | HyperAI