Command Palette
Search for a command to run...
Texte pour l'assemblage robotique d'objets multi-composants utilisant l'intelligence artificielle générative 3D et des modèles de langage-vision

Résumé
Les progrès réalisés dans le domaine de l’intelligence artificielle générative 3D ont permis de concevoir des objets physiques à partir de simples instructions textuelles. Toutefois, des défis subsistent lorsqu’il s’agit de créer des objets composés de plusieurs types de composants. Nous présentons une chaîne de traitement intégrant l’IA générative 3D et des modèles vision-langage (VLM, vision-language models) afin de permettre l’assemblage robotisé d’objets multi-composants à partir de langage naturel. Notre méthode exploite les VLM pour effectuer un raisonnement multimodal sans apprentissage préalable (zero-shot) sur la géométrie et la fonctionnalité, afin de décomposer des maillages générés par l’IA en modèles 3D multi-composants à l’aide de composants structurels et de panneaux prédéfinis. Nous démontrons qu’un VLM est capable d’identifier, en fonction de la fonctionnalité de l’objet, les zones du maillage qui nécessitent des panneaux en plus des composants structurels. Les évaluations menées sur divers objets de test montrent que les utilisateurs ont préféré les affectations proposées par le VLM dans 90,6 % des cas, contre 59,4 % pour les affectations basées sur des règles et seulement 2,5 % pour les affectations aléatoires. Enfin, le système permet aux utilisateurs d’affiner les affectations de composants grâce à un feedback conversationnel, offrant ainsi un meilleur contrôle humain et une plus grande autonomie dans la conception d’objets physiques à l’aide de l’IA générative et de la robotique.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.