HyperAIHyperAI

Command Palette

Search for a command to run...

vor 20 Tagen

Text-zu-Roboter-Assemblierung mehrkomponentiger Objekte unter Verwendung von 3D-generativer KI und Vision-Sprach-Modellen

Text-zu-Roboter-Assemblierung mehrkomponentiger Objekte unter Verwendung von 3D-generativer KI und Vision-Sprach-Modellen

Abstract

Durch Fortschritte in der 3D-generativen KI können physische Objekte nun aus Texteingaben erstellt werden. Dennoch bestehen weiterhin Herausforderungen bei der Erstellung von Objekten mit mehreren Komponententypen. Wir präsentieren einen Pipeline-Ansatz, der die 3D-generative KI mit visuellen Sprachmodellen (Vision-Language-Modellen, VLMs) integriert, um die robotergestützte Montage mehrkomponentiger Objekte aus natürlicher Sprache zu ermöglichen. Unser Verfahren nutzt VLMs für zero-shot-, multimodale Schlussfolgerungen hinsichtlich Geometrie und Funktionalität, um künstlich generierte Meshes auf Basis vordefinierter struktureller und flächiger Komponenten in mehrkomponentige 3D-Modelle zu zerlegen. Wir zeigen, dass ein VLM in der Lage ist, basierend auf der Funktionalität eines Objekts zu bestimmen, welche Mesh-Bereiche neben strukturellen auch flächige Komponenten erfordern. Evaluierungen an verschiedenen Testobjekten ergaben, dass Nutzer die von VLM generierten Zuordnungen zu 90,6 % bevorzugten, im Vergleich zu 59,4 % bei regelbasierten und nur 2,5 % bei zufälligen Zuordnungen. Schließlich ermöglicht das System durch konversationelle Rückmeldungen eine Feinjustierung der Komponentenzuordnungen, wodurch der Mensch eine größere Kontrolle und Autonomie bei der Erstellung physischer Objekte mit generativer KI und Robotik erhält.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Text-zu-Roboter-Assemblierung mehrkomponentiger Objekte unter Verwendung von 3D-generativer KI und Vision-Sprach-Modellen | Forschungsarbeiten | HyperAI