vor 3 Monaten

Alexander Htet Kyaw Richa Gupta Dhruv Shah Anoop Sinha Kory Mathewson Stefanie Pender Sachin Chitta Yotto Koga Faez Ahmed Lawrence Sass

Zusammenfassung

Durch Fortschritte in der 3D-generativen KI können physische Objekte nun aus Texteingaben erstellt werden. Dennoch bestehen weiterhin Herausforderungen bei der Erstellung von Objekten mit mehreren Komponententypen. Wir präsentieren einen Pipeline-Ansatz, der die 3D-generative KI mit visuellen Sprachmodellen (Vision-Language-Modellen, VLMs) integriert, um die robotergestützte Montage mehrkomponentiger Objekte aus natürlicher Sprache zu ermöglichen. Unser Verfahren nutzt VLMs für zero-shot-, multimodale Schlussfolgerungen hinsichtlich Geometrie und Funktionalität, um künstlich generierte Meshes auf Basis vordefinierter struktureller und flächiger Komponenten in mehrkomponentige 3D-Modelle zu zerlegen. Wir zeigen, dass ein VLM in der Lage ist, basierend auf der Funktionalität eines Objekts zu bestimmen, welche Mesh-Bereiche neben strukturellen auch flächige Komponenten erfordern. Evaluierungen an verschiedenen Testobjekten ergaben, dass Nutzer die von VLM generierten Zuordnungen zu 90,6 % bevorzugten, im Vergleich zu 59,4 % bei regelbasierten und nur 2,5 % bei zufälligen Zuordnungen. Schließlich ermöglicht das System durch konversationelle Rückmeldungen eine Feinjustierung der Komponentenzuordnungen, wodurch der Mensch eine größere Kontrolle und Autonomie bei der Erstellung physischer Objekte mit generativer KI und Robotik erhält.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 3 Monaten

Visuelle Fragebeantwortung

Robotik

Natürliche Sprachverarbeitung

Forschungsgebiet

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Alexander Htet Kyaw Richa Gupta Dhruv Shah Anoop Sinha Kory Mathewson Stefanie Pender Sachin Chitta Yotto Koga Faez Ahmed Lawrence Sass

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 3 Monaten

Visuelle Fragebeantwortung

Robotik

Natürliche Sprachverarbeitung

Forschungsgebiet

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Alexander Htet Kyaw Richa Gupta Dhruv Shah Anoop Sinha Kory Mathewson Stefanie Pender Sachin Chitta Yotto Koga Faez Ahmed Lawrence Sass

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Text-zu-Roboter-Assemblierung mehrkomponentiger Objekte unter Verwendung von 3D-generativer KI und Vision-Sprach-Modellen | Paper | HyperAI

Command Palette

Text-zu-Roboter-Assemblierung mehrkomponentiger Objekte unter Verwendung von 3D-generativer KI und Vision-Sprach-Modellen

Alexander Htet Kyaw Richa Gupta Dhruv Shah Anoop Sinha Kory Mathewson Stefanie Pender Sachin Chitta Yotto Koga Faez Ahmed Lawrence Sass1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Text-zu-Roboter-Assemblierung mehrkomponentiger Objekte unter Verwendung von 3D-generativer KI und Vision-Sprach-Modellen

Alexander Htet Kyaw Richa Gupta Dhruv Shah Anoop Sinha Kory Mathewson Stefanie Pender Sachin Chitta Yotto Koga Faez Ahmed Lawrence Sass1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Text-zu-Roboter-Assemblierung mehrkomponentiger Objekte unter Verwendung von 3D-generativer KI und Vision-Sprach-Modellen

Alexander Htet Kyaw Richa Gupta Dhruv Shah Anoop Sinha Kory Mathewson Stefanie Pender Sachin Chitta Yotto Koga Faez Ahmed Lawrence Sass1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Alexander Htet Kyaw Richa Gupta Dhruv Shah Anoop Sinha Kory Mathewson Stefanie Pender Sachin Chitta Yotto Koga Faez Ahmed Lawrence Sass

Alexander Htet Kyaw Richa Gupta Dhruv Shah Anoop Sinha Kory Mathewson Stefanie Pender Sachin Chitta Yotto Koga Faez Ahmed Lawrence Sass

Alexander Htet Kyaw Richa Gupta Dhruv Shah Anoop Sinha Kory Mathewson Stefanie Pender Sachin Chitta Yotto Koga Faez Ahmed Lawrence Sass