Strip Pooling: Die Neubewertung des räumlichen Pooling für die Szenenanalyse

Die räumliche Pooling-Technik hat sich als äußerst effektiv erwiesen, um langreichweitige kontextuelle Informationen für pixelweise Vorhersageaufgaben wie die Szenenparsung zu erfassen. In diesem Artikel überdenken wir die Formulierung des räumlichen Pooling jenseits der herkömmlichen, meist regelmäßig geformten NxN-Pooling-Operationen und führen eine neue Pooling-Strategie ein, die als „Strip Pooling“ bezeichnet wird und einen langen, aber schmalen Kernel – also entweder 1xN oder Nx1 – berücksichtigt. Auf Basis des Strip Pooling untersuchen wir weiterhin die Architekturgestaltung räumlicher Pooling durch 1) die Einführung eines neuen Strip-Pooling-Moduls, das es Backbone-Netzwerken ermöglicht, langreichweitige Abhängigkeiten effizient zu modellieren, 2) die Vorstellung eines neuartigen Bausteins, dessen Kern eine vielfältige räumliche Pooling-Strategie darstellt, sowie 3) eine systematische Vergleichsanalyse der Leistungsfähigkeit des vorgeschlagenen Strip Pooling im Vergleich zu herkömmlichen räumlichen Pooling-Techniken. Beide neuen, auf Pooling basierenden Architekturen sind leichtgewichtig und können als effiziente Plug-and-Play-Module in bestehende Szenenparsungsnetzwerke integriert werden. Umfangreiche Experimente auf etablierten Benchmarks (z. B. ADE20K und Cityscapes) zeigen, dass unsere einfache Herangehensweise neue SOTA-Ergebnisse (State-of-the-Art) erzielt. Der Quellcode ist unter https://github.com/Andrew-Qibin/SPNet verfügbar.