Squeeze-and-Attention-Netzwerke für die semantische Segmentierung

Die jüngste Integration von Aufmerksamkeitsmechanismen in Segmentierungsnetzwerke verbessert deren repräsentative Fähigkeiten durch eine starke Betonung informativer Merkmale. Diese Aufmerksamkeitsmechanismen ignorieren jedoch eine implizite Teilaufgabe der semantischen Segmentierung und sind durch die Gitterstruktur von Faltungs-Kernen eingeschränkt. In diesem Artikel stellen wir eine neuartige Architektur des Squeeze-and-Attention-Netzwerks (SANet) vor, die ein effektives Squeeze-and-Attention-(SA)-Modul nutzt, um zwei charakteristische Eigenschaften der Segmentierung zu berücksichtigen: i) Pixelgruppen-Aufmerksamkeit und ii) pixelweise Vorhersage. Genauer gesagt, übt das vorgeschlagene SA-Modul eine Pixelgruppen-Aufmerksamkeit auf herkömmliche Faltungen aus, indem es einen „Aufmerksamkeits“-Faltungs-Kanal einführt, wodurch räumlich-kanalbasierte Abhängigkeiten effizient berücksichtigt werden. Die endgültigen Segmentierungsergebnisse werden durch die Fusion der Ausgaben aus vier hierarchischen Stufen eines SANet erzielt, um multiskalare Kontextinformationen zu integrieren und somit eine verbesserte pixelweise Vorhersage zu ermöglichen. Empirische Experimente auf zwei anspruchsvollen öffentlichen Datensätzen bestätigen die Wirksamkeit der vorgeschlagenen SANets: Auf PASCAL VOC erreicht es eine mIoU von 83,2 % (ohne COCO-Vortrainierung), und auf PASCAL Context erzielt es eine state-of-the-art mIoU von 54,4 %.