InteractMove: Textgesteuerte Generierung menschlicher Objektinteraktionen in 3D-Szenen mit beweglichen Objekten
Xinhao Cai Minghang Zheng Xin Jin Yang Liu

Abstract
Wir schlagen eine neuartige Aufgabe zur textgesteuerten Generierung mensch-objekt-Interaktionen in 3D-Szenen mit beweglichen Objekten vor. Bestehende Datensätze zu mensch-szene-Interaktionen leiden unter einer unzureichenden Vielfalt an Interaktionskategorien und berücksichtigen typischerweise lediglich Interaktionen mit statischen Objekten (bei denen sich die Objektpositionen nicht ändern). Die Erhebung solcher Datensätze mit beweglichen Objekten ist zudem aufwendig und kostspielig. Um dieses Problem zu bewältigen, erstellen wir den InteractMove-Datensatz für bewegliche mensch-objekt-Interaktionen in 3D-Szenen, indem wir bestehende Daten zu mensch-objekt-Interaktionen mit Szenenkontexten ausrichten. Der Datensatz zeichnet sich durch drei zentrale Merkmale aus: 1) Szenen mit mehreren beweglichen Objekten und textgesteuerten Interaktionsvorgaben (einschließlich gleicher Kategorie störender Objekte, die ein Verständnis räumlicher und 3D-Szenenkontexte erfordern), 2) vielfältige Objekttypen und -größen mit unterschiedlichen Interaktionsmustern (z. B. Einhand- oder Zweihand-Interaktionen) sowie 3) physikalisch plausibele Manipulationspfade der Objekte. Durch die Einbeziehung verschiedener beweglicher Objekte wird die Aufgabe anspruchsvoller, da das Modell die relevanten Objekte präzise identifizieren, Interaktionen mit Objekten unterschiedlicher Größe und Kategorien erlernen und Kollisionen zwischen beweglichen Objekten und der Szene vermeiden muss. Um diesen Herausforderungen zu begegnen, schlagen wir eine neuartige Pipeline-Lösung vor. Zunächst nutzen wir 3D-Visual-Grundierung-Modelle, um das Interaktionsobjekt zu identifizieren. Anschließend stellen wir ein Konzept des gemeinsamen Affordanz-Lernens von Hand und Objekt vor, um Kontaktregionen für verschiedene Handgelenke und Objektteile vorherzusagen, wodurch eine präzise Greif- und Manipulationsfähigkeit verschiedener Objekte ermöglicht wird. Schließlich optimieren wir die Interaktionen durch lokale Szenenmodellierung und Kollisionsvermeidungsbeschränkungen, um physikalisch plausibele Bewegungen zu gewährleisten und Kollisionen zwischen Objekten und der Szene zu vermeiden. Umfassende Experimente belegen die Überlegenheit unseres Ansatzes gegenüber bestehenden Methoden hinsichtlich der Generierung physikalisch plausibler, textkonformer Interaktionen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.