HyperAIHyperAI
vor 2 Monaten

Achten Sie auf das, Was Sie Sind: Selbst-Aufmerksamkeit für Keypoint-Erkennung und Instanzbewusste Assoziation überwachen

Sen Yang; Zhicheng Wang; Ze Chen; Yanjie Li; Shoukui Zhang; Zhibin Quan; Shu-Tao Xia; Yiping Bao; Erjin Zhou; Wankou Yang
Achten Sie auf das, Was Sie Sind: Selbst-Aufmerksamkeit für Keypoint-Erkennung und Instanzbewusste Assoziation überwachen
Abstract

Dieses Papier stellt eine neue Methode zur Lösung von Keypoint-Detektion und Instanz-Assoziation durch den Einsatz von Transformer vor. Für bottom-up Modelle zur Mehrpersonen-Pose-Schätzung ist es notwendig, Keypoints zu detektieren und assoziative Informationen zwischen diesen zu lernen. Wir argumentieren, dass diese Probleme vollständig durch Transformer gelöst werden können. Insbesondere misst die Selbst-Aufmerksamkeit (self-attention) in Transformer die Abhängigkeiten zwischen beliebigen Paaren von Positionen, was Assoziationsinformationen für die Gruppierung von Keypoints bereitstellen kann. Allerdings sind naive Aufmerksamkeitsmuster noch nicht subjektiv steuerbar, sodass keine Garantie besteht, dass die Keypoints immer den Instanzen zugeordnet werden, denen sie angehören. Um dieses Problem anzugehen, schlagen wir einen neuen Ansatz vor, bei dem die Selbst-Aufmerksamkeit für die Mehrpersonen-Keypoint-Detektion und Instanz-Assoziation überwacht wird. Durch das Verwenden von Instanzmasken zur Überwachung der Selbst-Aufmerksamkeit auf instanzbewusste Weise können wir die detektierten Keypoints ihren entsprechenden Instanzen basierend auf den paarweisen Aufmerksamkeitsbewertungen zuordnen, ohne vorgegebene Offset-Vektorfelder oder Einbettungen wie bei CNN-basierten bottom-up Modellen zu verwenden. Ein zusätzlicher Vorteil unserer Methode besteht darin, dass die Ergebnisse der Instanzsegmentierung für beliebig viele Personen direkt aus der überwachten Aufmerksamkeitsmatrix abgeleitet werden können, wodurch der Pixelzuordnungsprozess vereinfacht wird. Die Experimente am COCO Mehrpersonen-Keypoint-Detektions-Challenge und an der Person-Instanzsegmentierungsaufgabe zeigen die Effektivität und Einfachheit des vorgeschlagenen Ansatzes und weisen einen vielversprechenden Weg auf, um das Verhalten der Selbst-Aufmerksamkeit für spezifische Zwecke zu kontrollieren.