HyperAIHyperAI

Command Palette

Search for a command to run...

vor 7 Tagen

InteractMove: Textgesteuerte Generierung menschlicher Objektinteraktionen in 3D-Szenen mit beweglichen Objekten

Xinhao Cai Minghang Zheng Xin Jin Yang Liu

InteractMove: Textgesteuerte Generierung menschlicher Objektinteraktionen in 3D-Szenen mit beweglichen Objekten

Abstract

Wir schlagen eine neuartige Aufgabe zur textgesteuerten Generierung mensch-objekt-Interaktionen in 3D-Szenen mit beweglichen Objekten vor. Bestehende Datensätze zu mensch-szene-Interaktionen leiden unter einer unzureichenden Vielfalt an Interaktionskategorien und berücksichtigen typischerweise lediglich Interaktionen mit statischen Objekten (bei denen sich die Objektpositionen nicht ändern). Die Erhebung solcher Datensätze mit beweglichen Objekten ist zudem aufwendig und kostspielig. Um dieses Problem zu bewältigen, erstellen wir den InteractMove-Datensatz für bewegliche mensch-objekt-Interaktionen in 3D-Szenen, indem wir bestehende Daten zu mensch-objekt-Interaktionen mit Szenenkontexten ausrichten. Der Datensatz zeichnet sich durch drei zentrale Merkmale aus: 1) Szenen mit mehreren beweglichen Objekten und textgesteuerten Interaktionsvorgaben (einschließlich gleicher Kategorie störender Objekte, die ein Verständnis räumlicher und 3D-Szenenkontexte erfordern), 2) vielfältige Objekttypen und -größen mit unterschiedlichen Interaktionsmustern (z. B. Einhand- oder Zweihand-Interaktionen) sowie 3) physikalisch plausibele Manipulationspfade der Objekte. Durch die Einbeziehung verschiedener beweglicher Objekte wird die Aufgabe anspruchsvoller, da das Modell die relevanten Objekte präzise identifizieren, Interaktionen mit Objekten unterschiedlicher Größe und Kategorien erlernen und Kollisionen zwischen beweglichen Objekten und der Szene vermeiden muss. Um diesen Herausforderungen zu begegnen, schlagen wir eine neuartige Pipeline-Lösung vor. Zunächst nutzen wir 3D-Visual-Grundierung-Modelle, um das Interaktionsobjekt zu identifizieren. Anschließend stellen wir ein Konzept des gemeinsamen Affordanz-Lernens von Hand und Objekt vor, um Kontaktregionen für verschiedene Handgelenke und Objektteile vorherzusagen, wodurch eine präzise Greif- und Manipulationsfähigkeit verschiedener Objekte ermöglicht wird. Schließlich optimieren wir die Interaktionen durch lokale Szenenmodellierung und Kollisionsvermeidungsbeschränkungen, um physikalisch plausibele Bewegungen zu gewährleisten und Kollisionen zwischen Objekten und der Szene zu vermeiden. Umfassende Experimente belegen die Überlegenheit unseres Ansatzes gegenüber bestehenden Methoden hinsichtlich der Generierung physikalisch plausibler, textkonformer Interaktionen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
InteractMove: Textgesteuerte Generierung menschlicher Objektinteraktionen in 3D-Szenen mit beweglichen Objekten | Forschungsarbeiten | HyperAI