HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage harmonieux de caractéristiques pour l'estimation de pose interactive main-objet

Shaoli Huang Zengsheng Kuang Huan Yao Changxing Ding Zhifeng Lin

Résumé

L’estimation conjointe de la pose de la main et de l’objet à partir d’une seule image est extrêmement difficile, en raison des occlusions sévères qui surviennent fréquemment lors de l’interaction entre la main et l’objet. Les approches existantes extraient généralement des caractéristiques brutes de la main et de l’objet à partir d’un seul modèle principal (backbone), puis améliorent ces caractéristiques mutuellement grâce à des modules d’interaction. Toutefois, ces méthodes négligent souvent le fait que la main et l’objet sont concurrents dans l’apprentissage des caractéristiques, car le modèle principal traite les deux comme des objets principaux (foreground), et ils sont généralement mutuellement occlués. Dans cet article, nous proposons un nouveau réseau appelé Harmonious Feature Learning Network (HFL-Net). HFL-Net introduit un cadre innovant qui combine les avantages des architectures à simple flux et à double flux : il partage les paramètres des couches convolutionnelles de basse et de haute niveau d’un modèle ResNet-50 commun pour la main et l’objet, tout en laissant les couches de niveau intermédiaire non partagées. Cette stratégie permet aux couches de niveau intermédiaire d’extraire la main et l’objet comme cibles uniques, évitant ainsi leur concurrence dans l’apprentissage des caractéristiques. En outre, les couches de haut niveau partagées imposent une harmonisation des caractéristiques, favorisant ainsi une amélioration mutuelle. Plus précisément, nous proposons d’améliorer les caractéristiques de la main en les concaténant avec les caractéristiques correspondantes à la même localisation provenant du flux de l’objet. Une couche d’attention auto-associative est ensuite appliquée pour fusionner profondément les caractéristiques concaténées. Les résultats expérimentaux montrent que notre approche surpasse de manière cohérente les méthodes de pointe sur les bases de données populaires HO3D et Dex-YCB. Notamment, les performances de notre modèle en estimation de la pose de la main dépassent celles des travaux existants qui se concentrent uniquement sur la tâche d’estimation de la pose d’une seule main. Le code source est disponible à l’adresse suivante : https://github.com/lzfff12/HFL-Net.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp