HyperAIHyperAI

Command Palette

Search for a command to run...

Prédiction de formes 3D, de masques et de propriétés de matériaux, de liquides et d'objets à l'intérieur de conteneurs transparents, à l'aide du jeu de données CGI TransProteus

Sagi Eppel Haoping Xu Yi Ru Wang Alan Aspuru-Guzik

Résumé

Nous présentons TransProteus, un jeu de données ainsi que des méthodes permettant de prédire la structure 3D, les masques et les propriétés de matériaux, de liquides et d’objets contenus dans des récipients transparents à partir d’une seule image, sans connaissance préalable de la source de l’image ni des paramètres de la caméra. La manipulation de matériaux dans des récipients transparents est essentielle dans de nombreux domaines et repose fortement sur la vision par ordinateur. Ce travail introduit un nouveau jeu de données généré de manière procédurale, comprenant 50 000 images de liquides et d’objets solides à l’intérieur de récipients transparents. Les annotations associées incluent des modèles 3D, des propriétés matérielles (couleur, transparence, rugosité, etc.) et des masques de segmentation pour le récipient et son contenu. La partie synthétique (CGI) du jeu de données a été générée de manière procédurale à l’aide de 13 000 objets différents, 500 environnements différents (HDRI), 1 450 textures matérielles (PBR), combinés à des liquides simulés et à des récipients générés de manière procédurale. En outre, nous fournissons 104 images du monde réel d’objets à l’intérieur de récipients transparents, accompagnées de cartes de profondeur pour le récipient et son contenu. Nous proposons une méthode indépendante de la caméra capable de prédire un modèle 3D à partir d’une image sous la forme d’une carte XYZ. Cela permet au réseau entraîné de prédire le modèle 3D comme une carte où chaque pixel correspond à un triplet de coordonnées XYZ, sans nécessiter de connaissance préalable de la source de l’image. Pour calculer la fonction de perte d’entraînement, nous utilisons la distance entre les paires de points à l’intérieur du modèle 3D, plutôt que les coordonnées absolues XYZ. Cette approche rend la fonction de perte invariante aux translations. Nous exploitons cette propriété pour prédire les modèles 3D des récipients et de leur contenu à partir d’une seule image. Enfin, nous démontrons un réseau capable de prédire, à partir d’une seule image, les propriétés matérielles du contenu du récipient ainsi que celles de sa surface.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp