Prédiction de formes 3D, de masques et de propriétés de matériaux, de liquides et d'objets à l'intérieur de conteneurs transparents, à l'aide du jeu de données CGI TransProteus

Nous présentons TransProteus, un jeu de données ainsi que des méthodes permettant de prédire la structure 3D, les masques et les propriétés de matériaux, de liquides et d’objets contenus dans des récipients transparents à partir d’une seule image, sans connaissance préalable de la source de l’image ni des paramètres de la caméra. La manipulation de matériaux dans des récipients transparents est essentielle dans de nombreux domaines et repose fortement sur la vision par ordinateur. Ce travail introduit un nouveau jeu de données généré de manière procédurale, comprenant 50 000 images de liquides et d’objets solides à l’intérieur de récipients transparents. Les annotations associées incluent des modèles 3D, des propriétés matérielles (couleur, transparence, rugosité, etc.) et des masques de segmentation pour le récipient et son contenu. La partie synthétique (CGI) du jeu de données a été générée de manière procédurale à l’aide de 13 000 objets différents, 500 environnements différents (HDRI), 1 450 textures matérielles (PBR), combinés à des liquides simulés et à des récipients générés de manière procédurale. En outre, nous fournissons 104 images du monde réel d’objets à l’intérieur de récipients transparents, accompagnées de cartes de profondeur pour le récipient et son contenu. Nous proposons une méthode indépendante de la caméra capable de prédire un modèle 3D à partir d’une image sous la forme d’une carte XYZ. Cela permet au réseau entraîné de prédire le modèle 3D comme une carte où chaque pixel correspond à un triplet de coordonnées XYZ, sans nécessiter de connaissance préalable de la source de l’image. Pour calculer la fonction de perte d’entraînement, nous utilisons la distance entre les paires de points à l’intérieur du modèle 3D, plutôt que les coordonnées absolues XYZ. Cette approche rend la fonction de perte invariante aux translations. Nous exploitons cette propriété pour prédire les modèles 3D des récipients et de leur contenu à partir d’une seule image. Enfin, nous démontrons un réseau capable de prédire, à partir d’une seule image, les propriétés matérielles du contenu du récipient ainsi que celles de sa surface.