il y a 2 mois

Portez attention à qui vous êtes : Supervision de l'auto-attention pour la détection de points clés et l'association sensible aux instances

Sen Yang; Zhicheng Wang; Ze Chen; Yanjie Li; Shoukui Zhang; Zhibin Quan; Shu-Tao Xia; Yiping Bao; Erjin Zhou; Wankou Yang

Voir les détails de l'article

Portez attention à qui vous êtes : Supervision de l'auto-attention pour la détection de points clés et l'association sensible aux instances

Résumé

Ce document présente une nouvelle méthode pour résoudre la détection de points clés et l'association d'instances en utilisant le modèle Transformer. Pour les modèles d'estimation de pose multi-personne basés sur une approche ascendante (bottom-up), il est nécessaire de détecter les points clés et d'apprendre des informations associatives entre ces points. Nous soutenons que ces problèmes peuvent être entièrement résolus par le modèle Transformer. Plus précisément, l'auto-attention dans le Transformer mesure les dépendances entre toutes les paires de positions, ce qui peut fournir des informations d'association pour le regroupement des points clés. Cependant, les schémas d'attention naïfs ne sont pas encore contrôlés de manière subjective, il n'y a donc aucune garantie que les points clés s'orientent toujours vers les instances auxquelles ils appartiennent. Pour remédier à cela, nous proposons une nouvelle approche consistant à superviser l'auto-attention pour la détection de points clés multi-personne et l'association d'instances. En utilisant des masques d'instance pour superviser l'auto-attention afin qu'elle soit consciente des instances (instance-aware), nous pouvons attribuer les points clés détectés à leurs instances correspondantes en fonction des scores d'attention par paires, sans avoir recours à des champs de vecteurs d'offset prédéfinis ou à des plongements (embeddings) comme c'est le cas dans les modèles basés sur CNN avec une approche ascendante. Un avantage supplémentaire de notre méthode est que les résultats de segmentation d'instances pour un nombre quelconque de personnes peuvent être directement obtenus à partir de la matrice d'attention supervisée, simplifiant ainsi le pipeline d'affectation des pixels. Les expériences menées sur le défi COCO de détection de points clés multi-personne et sur la tâche de segmentation d'instances de personnes montrent l'efficacité et la simplicité de la méthode proposée, et indiquent une voie prometteuse pour contrôler le comportement de l'auto-attention à des fins spécifiques.