Apprentissage harmonieux de caractéristiques pour l'estimation de pose interactive main-objet

L’estimation conjointe de la pose de la main et de l’objet à partir d’une seule image est extrêmement difficile, en raison des occlusions sévères qui surviennent fréquemment lors de l’interaction entre la main et l’objet. Les approches existantes extraient généralement des caractéristiques brutes de la main et de l’objet à partir d’un seul modèle principal (backbone), puis améliorent ces caractéristiques mutuellement grâce à des modules d’interaction. Toutefois, ces méthodes négligent souvent le fait que la main et l’objet sont concurrents dans l’apprentissage des caractéristiques, car le modèle principal traite les deux comme des objets principaux (foreground), et ils sont généralement mutuellement occlués. Dans cet article, nous proposons un nouveau réseau appelé Harmonious Feature Learning Network (HFL-Net). HFL-Net introduit un cadre innovant qui combine les avantages des architectures à simple flux et à double flux : il partage les paramètres des couches convolutionnelles de basse et de haute niveau d’un modèle ResNet-50 commun pour la main et l’objet, tout en laissant les couches de niveau intermédiaire non partagées. Cette stratégie permet aux couches de niveau intermédiaire d’extraire la main et l’objet comme cibles uniques, évitant ainsi leur concurrence dans l’apprentissage des caractéristiques. En outre, les couches de haut niveau partagées imposent une harmonisation des caractéristiques, favorisant ainsi une amélioration mutuelle. Plus précisément, nous proposons d’améliorer les caractéristiques de la main en les concaténant avec les caractéristiques correspondantes à la même localisation provenant du flux de l’objet. Une couche d’attention auto-associative est ensuite appliquée pour fusionner profondément les caractéristiques concaténées. Les résultats expérimentaux montrent que notre approche surpasse de manière cohérente les méthodes de pointe sur les bases de données populaires HO3D et Dex-YCB. Notamment, les performances de notre modèle en estimation de la pose de la main dépassent celles des travaux existants qui se concentrent uniquement sur la tâche d’estimation de la pose d’une seule main. Le code source est disponible à l’adresse suivante : https://github.com/lzfff12/HFL-Net.