Command Palette
Search for a command to run...
Text-zu-Roboter-Assemblierung mehrkomponentiger Objekte unter Verwendung von 3D-generativer KI und Vision-Sprach-Modellen
Text-zu-Roboter-Assemblierung mehrkomponentiger Objekte unter Verwendung von 3D-generativer KI und Vision-Sprach-Modellen
Zusammenfassung
Durch Fortschritte in der 3D-generativen KI können physische Objekte nun aus Texteingaben erstellt werden. Dennoch bestehen weiterhin Herausforderungen bei der Erstellung von Objekten mit mehreren Komponententypen. Wir präsentieren einen Pipeline-Ansatz, der die 3D-generative KI mit visuellen Sprachmodellen (Vision-Language-Modellen, VLMs) integriert, um die robotergestützte Montage mehrkomponentiger Objekte aus natürlicher Sprache zu ermöglichen. Unser Verfahren nutzt VLMs für zero-shot-, multimodale Schlussfolgerungen hinsichtlich Geometrie und Funktionalität, um künstlich generierte Meshes auf Basis vordefinierter struktureller und flächiger Komponenten in mehrkomponentige 3D-Modelle zu zerlegen. Wir zeigen, dass ein VLM in der Lage ist, basierend auf der Funktionalität eines Objekts zu bestimmen, welche Mesh-Bereiche neben strukturellen auch flächige Komponenten erfordern. Evaluierungen an verschiedenen Testobjekten ergaben, dass Nutzer die von VLM generierten Zuordnungen zu 90,6 % bevorzugten, im Vergleich zu 59,4 % bei regelbasierten und nur 2,5 % bei zufälligen Zuordnungen. Schließlich ermöglicht das System durch konversationelle Rückmeldungen eine Feinjustierung der Komponentenzuordnungen, wodurch der Mensch eine größere Kontrolle und Autonomie bei der Erstellung physischer Objekte mit generativer KI und Robotik erhält.