Schwach überwachte Objektlokalisation mittels Transformer mit impliziter räumlicher Kalibrierung

Die schwach überwachte Objektlokalisation (WSOL), die darauf abzielt, Objekte nur mit Hilfe von bildbasierten Klassenlabels zu lokalisieren, hat aufgrund ihrer geringen Annotationskosten in praktischen Anwendungen viel Aufmerksamkeit gefunden. Neueste Studien nutzen den Vorteil der Selbst-Aufmerksamkeit (Self-Attention) in visuellen Transformatoren zur Modellierung langer Abhängigkeiten, um semantische Regionen erneut zu aktivieren und partielle Aktivierungen in traditionellen Klassifikationsaktionskarten (Class Activation Mapping, CAM) zu vermeiden. Dennoch vernachlässigt die Modellierung langer Abhängigkeiten im Transformer die inhärente räumliche Kohärenz des Objekts und verbreitet oft die semantisch bewussten Regionen weit vom Objekt-Rand, was zu erheblich größeren oder kleineren Lokalisierungsresultaten führt. Um dieses Problem anzugehen, stellen wir ein einfaches aber effektives räumliches Kalibrierungsmodul (Spatial Calibration Module, SCM) für eine präzise WSOL vor. Dieses Modul integriert semantische Ähnlichkeiten von Patch-Token und ihre räumlichen Beziehungen in ein einheitliches Diffusionsmodell. Insbesondere führen wir einen lernfähigen Parameter ein, um die semantischen Korrelationen und die Intensität des räumlichen Kontextes dynamisch anzupassen und so eine effektive Informationsverbreitung zu gewährleisten. In der Praxis ist das SCM als externes Modul des Transformers konzipiert und kann während der Inferenz entfernt werden, um die Rechenkosten zu reduzieren. Die objektsensitive Lokalisierungsfähigkeit wird durch Optimierung im Trainingsphasen implizit in den Transformer-Encoder eingebettet. Dies ermöglicht es den generierten Aufmerksamkeitskarten, schärfere Objektgrenzen zu erfassen und objektunabhängige Hintergrundbereiche zu filtern. Ausführliche experimentelle Ergebnisse zeigen die Effektivität der vorgeschlagenen Methode, die sowohl auf den Benchmarks CUB-200 als auch ImageNet-1K erheblich bessere Leistungen als das Pendant TS-CAM erzielt. Der Code ist unter https://github.com/164140757/SCM verfügbar.