HyperAIHyperAI

Command Palette

Search for a command to run...

Dichte vollkörperrige Erfassung und Inferenz des menschlichen Szenenkontakts

Chun-Hao P. Huang Hongwei Yi Markus Höschle Matvey Safroshkin Tsvetelina Alexiadis Senya Polikovsky Daniel Scharstein Michael J. Black

Zusammenfassung

Die Inferenz von Mensch-Szene-Kontakt (MSK) ist der erste Schritt zur Verständnis,wie Menschen mit ihrer Umgebung interagieren. Obwohl bei der Erkennung von 2D-Mensch-Objekt-Interaktion (MOI)und der Rekonstruktion von 3D-Mensch-Pose und -Form (MPF) erhebliche Fortschritte gemacht wurden,bleibt die Analyse des 3D-Mensch-Szene-Kontakts aus einer einzelnen Bildaufnahme noch immer eine Herausforderung.Bestehende MSK-Erkennungsverfahren berücksichtigen nur wenige vordefinierte Kontaktarten,reduzieren Körper und Szene oft auf eine geringe Anzahl von Primitiven und ignorieren sogar Bildbeweise.Um den MSK aus einer einzelnen Bildaufnahme vorherzusagen, adressieren wir die oben genannten Einschränkungensowohl aus datenbezogener als auch algorithmischer Sicht. Wir erfassen einen neuen Datensatz namens RICH für"Reale Szenen, Interaktion, Kontakt und Menschen". RICH enthält mehrere Videosequenzen im 4K-Auflösungsformat,sowohl im Freien als auch im Innenraum, sowie bodengenaue 3D-Menschenkörper, die mittels markerloser Bewegungserfassungerfasst wurden, 3D-Körperscans und hochauflösende 3D-Szenescans. Eine wesentliche Eigenschaft von RICH ist,dass er auch präzise vertexbasierte Kontaktkennzeichnungen am Körper enthält.Mit Hilfe von RICH trainieren wir ein Netzwerk, das dichten Körper-Szene-Kontakte aus einem einzelnen RGB-Bild vorhersagt.Unser entscheidendes Erkenntnis ist, dass kontaktierende Bereiche stets verdeckt sind,so dass das Netzwerk die Fähigkeit haben muss, den gesamten Bildinhalt nach Beweisen zu durchsuchen.Wir verwenden einen Transformer, um solche nicht-lokalen Beziehungen zu lernen,und schlagen einen neuen Body-Scene contact TRansfOrmer (BSTRO) vor. Sehr wenige Methoden untersuchen den 3D-Kontakt;diejenigen, die es tun, konzentrieren sich ausschließlich auf die Füße,erkennen Fußkontakte als Nachbearbeitungsschritt oder inferieren Kontakte allein aus der Körperform ohne Berücksichtigung der Szene.Nach unserem Wissen ist BSTRO die erste Methode, die den 3D-Körper-Szene-Kontakt direkt aus einem einzelnen Bild schätzt.Wir zeigen, dass BSTRO erheblich besser abschneidet als frühere Ansätze. Der Code und der Datensatz sind unterhttps://rich.is.tue.mpg.de verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Dichte vollkörperrige Erfassung und Inferenz des menschlichen Szenenkontakts | Paper | HyperAI