Polarized Self-Attention: Hin zu einer hochwertigen pixelweisen Regression

Pixel-weise Regression stellt vermutlich das häufigste Problem in feinabgestuften Aufgaben des Computersehens dar, beispielsweise bei der Schätzung von Keypoint-Heatmaps oder Segmentierungsmasken. Diese Regressionsaufgaben sind besonders herausfordernd, da sie bei geringem Rechenaufwand die Modellierung von langreichweitigen Abhängigkeiten auf hochauflösenden Eingaben/Ausgaben erfordern, um die stark nichtlinearen semantischen Eigenschaften einzelner Pixel zu erfassen. Während Aufmerksamkeitsmechanismen in tiefen Faltungsneuralen Netzen (DCNNs) zur Verbesserung langreichweitiger Abhängigkeiten zunehmend populär geworden sind, sind elementspezifische Aufmerksamkeitsansätze wie Nonlocal-Blöcke hochkomplex und empfindlich gegenüber Rauschen, und die meisten vereinfachten Aufmerksamkeitshybriden versuchen, einen Kompromiss zwischen mehreren Aufgabentypen zu finden. In diesem Artikel präsentieren wir den Polarized Self-Attention (PSA)-Block, der zwei entscheidende Entwürfe zur Erzielung hochwertiger pixelweiser Regression integriert: (1) Polarisierte Filterung: Beibehaltung einer hohen internen Auflösung sowohl bei der Kanal- als auch bei der räumlichen Aufmerksamkeitsberechnung, während die Eingabetensoren entlang ihrer jeweiligen Gegenrichtungen vollständig zusammengefasst werden. (2) Verbesserung: Kombination einer Nichtlinearität, die direkt der Ausgabeverteilung typischer feinabgestufter Regressionen entspricht, wie der zweidimensionalen Gauß-Verteilung (Keypoint-Heatmaps) oder der zweidimensionalen Binomialverteilung (binäre Segmentierungsmasken). Der PSA-Block scheint die Darstellungskapazität seiner rein kanalbasierten und rein räumlichen Zweige ausgeschöpft zu haben, sodass zwischen sequenziellen und parallelen Architekturen nur noch geringe Unterschiede in den Metriken bestehen. Experimentelle Ergebnisse zeigen, dass PSA Standardbaselines um 2–4 Punkte verbessert und State-of-the-Art-Methoden auf Benchmarks für 2D-Pose-Schätzung und semantische Segmentierung um 1–2 Punkte steigert.