TransPose: Eckpunktlokalisierung mittels Transformer

Obwohl CNN-basierte Modelle erhebliche Fortschritte bei der menschlichen Pose-Schätzung erzielt haben, ist unklar, welche räumlichen Abhängigkeiten sie tatsächlich erfassen, um Gelenkpunkte zu lokalisieren. In dieser Arbeit stellen wir ein Modell namens \textbf{TransPose} vor, das den Transformer für die menschliche Pose-Schätzung einsetzt. Die Aufmerksamkeitslayer im Transformer ermöglichen es unserem Modell, langreichweitige Beziehungen effizient zu erfassen und gleichzeitig aufzudecken, auf welche Abhängigkeiten die geschätzten Gelenkpunkte jeweils zurückgreifen. Um Heatmaps für Gelenkpunkte vorherzusagen, fungiert der letzte Aufmerksamkeitslayer als Aggregator, der Beiträge aus den Bildmerkmalen sammelt und die Maximalpositionen der Gelenkpunkte bildet. Dieser auf Heatmaps basierende Lokalisierungsansatz mittels Transformer entspricht dem Prinzip der Aktivierungsmaximierung~\cite{erhan2009visualizing}. Die aufgedeckten Abhängigkeiten sind bildspezifisch und fein granular und können zudem Hinweise darauf liefern, wie das Modell besondere Fälle wie Verdeckung behandelt. Experimente zeigen, dass TransPose auf den COCO-Validierungs- und Test-dev-Sets jeweils 75,8 AP und 75,0 AP erreicht, wobei das Modell zugleich leichtgewichtiger und schneller als etablierte CNN-Architekturen ist. TransPose überträgt sich zudem sehr gut auf die MPII-Benchmark-Daten, wobei es bei geringem Trainingsaufwand nach Feinabstimmung eine überlegene Leistung auf dem Testset erzielt. Der Quellcode und vortrainierte Modelle sind öffentlich verfügbar\footnote{\url{https://github.com/yangsenius/TransPose}}.