ClickDiff: Klicken, um semantische Kontaktkarten für steuerbare Greiferzeugung mit Diffusionsmodellen zu induzieren

Die Grasp-Generierung zielt darauf ab, komplexe Hand-Objekt-Interaktionen mit einem spezifischen Objekt zu erzeugen. Während traditionelle Ansätze für die Handgenerierung hauptsächlich auf Sichtbarkeit und Vielfalt unter Szenenrestriktionen fokussiert waren, neigen sie dazu, feingranulare Hand-Objekt-Interaktionen wie Kontakte zu vernachlässigen, was zu ungenauen und unerwünschten Griffe führt. Um diese Herausforderungen anzugehen, schlagen wir eine steuerbare Grasp-Generierungsaufgabe vor und stellen ClickDiff vor, ein steuerbares bedingtes Generierungsmodell, das einen feingranularen semantischen Kontaktplan (SCM) nutzt. Insbesondere bei der Synthese interaktiver Griffe ermöglicht die Methode die präzise Steuerung der Grasp-Synthese durch entweder benutzerdefinierte oder algorithmisch vorhergesagte semantische Kontaktpläne. Speziell zur optimalen Nutzung von Kontaktaufsichtsrestriktionen und zur genauen Modellierung der komplexen physikalischen Struktur von Händen schlagen wir ein Doppelterzeugungsframework vor. Innerhalb dieses Frameworks generiert das semantische Bedingungsmodul sinnvolle Kontaktpläne basierend auf feingranularen Kontaktdaten, während das Kontaktbedingungsmodul Kontaktpläne zusammen mit Objektpunktwolken verwendet, um realistische Griffe zu erzeugen. Wir evaluieren die Bewertungskriterien, die für die steuerbare Grasp-Generierung relevant sind. Experimente zur unimanuellen und bimanuellen Generierung auf den Datensätzen GRAB und ARCTIC bestätigen die Gültigkeit unseres vorgeschlagenen Verfahrens und zeigen die Effizienz und Robustheit von ClickDiff, auch bei bisher unbekannten Objekten. Unser Code ist unter https://github.com/adventurer-w/ClickDiff verfügbar.