DualPoseNet : Estimation de la pose et de la taille d'objets au niveau catégoriel à l'aide d'un réseau de pose dual avec un apprentissage affiné de la cohérence des poses

L'estimation de la posture et de la taille d'objets au niveau catégoriel en 6D consiste à prédire des configurations complètes de rotation, de translation et de taille pour les instances d'objets observées dans des vues uniques et arbitraires de scènes encombrées. Dans cet article, nous proposons une nouvelle méthode appelée Réseau de Posture Dual avec un apprentissage affiné de la cohérence de la posture pour cette tâche, abrégée en DualPoseNet. DualPoseNet superpose deux décodeurs de posture parallèles sur un encodeur de posture partagé, où le décodeur implicite prédit les postures des objets avec un mécanisme opérationnel différent de celui du décodeur explicite ; ils imposent ainsi une supervision complémentaire lors de l'apprentissage de l'encodeur de posture. Nous construisons l'encodeur en utilisant des convolutions sphériques et concevons un module appelé Fusion Sphérique afin d'améliorer l'intégration des caractéristiques sensibles à la posture issues des observations d'apparence et de forme. En l'absence de modèles CAD pour les tests, c'est l'introduction novatrice du décodeur implicite qui permet une prédiction affinée de la posture lors des tests, en imposant une cohérence prédictive entre les deux décodeurs grâce à un terme de perte auto-adaptatif. Des expérimentations approfondies sur des benchmarks d'ensembles de données relatifs aux postures d'objets au niveau catégoriel et au niveau instanciel confirment l'efficacité de nos conceptions. DualPoseNet surpasses les méthodes existantes avec une marge importante dans le domaine de haute précision. Notre code est rendu publiquement disponible sur https://github.com/Gorilla-Lab-SCUT/DualPoseNet.