Dichte vollkörperrige Erfassung und Inferenz des menschlichen Szenenkontakts

Die Inferenz von Mensch-Szene-Kontakt (MSK) ist der erste Schritt zur Verständnis,wie Menschen mit ihrer Umgebung interagieren. Obwohl bei der Erkennung von 2D-Mensch-Objekt-Interaktion (MOI)und der Rekonstruktion von 3D-Mensch-Pose und -Form (MPF) erhebliche Fortschritte gemacht wurden,bleibt die Analyse des 3D-Mensch-Szene-Kontakts aus einer einzelnen Bildaufnahme noch immer eine Herausforderung.Bestehende MSK-Erkennungsverfahren berücksichtigen nur wenige vordefinierte Kontaktarten,reduzieren Körper und Szene oft auf eine geringe Anzahl von Primitiven und ignorieren sogar Bildbeweise.Um den MSK aus einer einzelnen Bildaufnahme vorherzusagen, adressieren wir die oben genannten Einschränkungensowohl aus datenbezogener als auch algorithmischer Sicht. Wir erfassen einen neuen Datensatz namens RICH für"Reale Szenen, Interaktion, Kontakt und Menschen". RICH enthält mehrere Videosequenzen im 4K-Auflösungsformat,sowohl im Freien als auch im Innenraum, sowie bodengenaue 3D-Menschenkörper, die mittels markerloser Bewegungserfassungerfasst wurden, 3D-Körperscans und hochauflösende 3D-Szenescans. Eine wesentliche Eigenschaft von RICH ist,dass er auch präzise vertexbasierte Kontaktkennzeichnungen am Körper enthält.Mit Hilfe von RICH trainieren wir ein Netzwerk, das dichten Körper-Szene-Kontakte aus einem einzelnen RGB-Bild vorhersagt.Unser entscheidendes Erkenntnis ist, dass kontaktierende Bereiche stets verdeckt sind,so dass das Netzwerk die Fähigkeit haben muss, den gesamten Bildinhalt nach Beweisen zu durchsuchen.Wir verwenden einen Transformer, um solche nicht-lokalen Beziehungen zu lernen,und schlagen einen neuen Body-Scene contact TRansfOrmer (BSTRO) vor. Sehr wenige Methoden untersuchen den 3D-Kontakt;diejenigen, die es tun, konzentrieren sich ausschließlich auf die Füße,erkennen Fußkontakte als Nachbearbeitungsschritt oder inferieren Kontakte allein aus der Körperform ohne Berücksichtigung der Szene.Nach unserem Wissen ist BSTRO die erste Methode, die den 3D-Körper-Szene-Kontakt direkt aus einem einzelnen Bild schätzt.Wir zeigen, dass BSTRO erheblich besser abschneidet als frühere Ansätze. Der Code und der Datensatz sind unterhttps://rich.is.tue.mpg.de verfügbar.