FS-Net : Réseau Rapide Basé sur la Forme pour l'Estimation de la Pose 6D des Objets au Niveau Catégoriel avec un Mécanisme de Rotation Découplé

Dans cet article, nous nous concentrons sur l'estimation de la posture et de la taille au niveau des catégories à partir d'une image monulaire RGB-D. Les méthodes précédentes souffrent d'une extraction inefficace des caractéristiques de posture au niveau des catégories, ce qui entraîne une faible précision et une vitesse d'inférence réduite. Pour résoudre ce problème, nous proposons un réseau neuronal rapide basé sur la forme (FS-Net) avec une extraction efficace des caractéristiques au niveau des catégories pour l'estimation de la posture en 6D. Tout d'abord, nous concevons un autoencodeur sensible à l'orientation utilisant des convolutions de graphe 3D pour l'extraction de caractéristiques latentes. La caractéristique latente apprise est insensible aux décalages de points et à la taille de l'objet grâce aux propriétés d'invariance par décalage et par échelle des convolutions de graphe 3D.Ensuite, pour décoder efficacement les informations de rotation au niveau des catégories à partir de la caractéristique latente, nous proposons un nouveau mécanisme de rotation décorrélé qui utilise deux décodeurs pour accéder complémentairement aux informations de rotation. Parallèlement, nous estimons la translation et la taille par deux résidus : la différence entre la moyenne des points de l'objet et la translation véridique, ainsi que la différence entre la taille moyenne de la catégorie et la taille véridique.Enfin, pour améliorer les capacités de généralisation du FS-Net, nous proposons un mécanisme en ligne de déformation 3D basé sur une boîte-cage afin d'augmenter les données d'entraînement. Des expériences approfondies sur deux jeux de données de référence montrent que notre méthode atteint des performances d'état de l'art tant au niveau des catégories qu'au niveau des instances dans l'estimation en 6D de la posture des objets. En particulier, dans l'estimation de posture au niveau des catégories, sans données synthétiques supplémentaires, notre méthode surpasses les méthodes existantes avec une amélioration de 6,3 % sur le jeu de données NOCS-REAL.