Apprentissage implicite de l'orientation 3D pour la détection d'objets 6D à partir d'images RGB

Nous proposons une chaîne de traitement en temps réel basée sur l'RGB pour la détection d'objets et l'estimation de la pose 6D. Notre nouvelle estimation de l'orientation 3D est fondée sur une variante de l'Autoencodeur Débruiteur qui est formée sur des vues simulées d'un modèle 3D en utilisant la Randomisation de Domaine. Cet Autoencodeur Augmenté présente plusieurs avantages par rapport aux méthodes existantes : il n'a pas besoin de données d'entraînement réelles annotées par la pose, il se généralise à divers capteurs de test et gère naturellement les symétries des objets et des vues. Au lieu d'apprendre une correspondance explicite entre les images d'entrée et les poses des objets, il fournit une représentation implicite des orientations des objets définie par des échantillons dans un espace latent. Notre chaîne de traitement atteint des performances de pointe sur le jeu de données T-LESS, tant dans le domaine RGB que RGB-D. Nous évaluons également notre méthode sur le jeu de données LineMOD où nous pouvons rivaliser avec d'autres approches formées synthétiquement. Nous améliorons encore davantage les performances en corrigeant les estimations de l'orientation 3D pour tenir compte des erreurs perspectiviques lorsque l'objet s'écarte du centre de l'image, et nous présentons des résultats étendus.Note :- "RGB" 和 "RGB-D" 是常见的科技术语,直接使用法语中的通用译法。- "T-LESS" 和 "LineMOD" 是特定的数据集名称,保留原文。