Axial-DeepLab: Stand-Alone Axial-Attention für die Panoptic Segmentation

Die Faltung nutzt Lokalität zur Effizienz, wodurch jedoch langreichweitige Kontextinformationen verloren gehen. Selbst-Attention wurde eingeführt, um Convolutional Neural Networks (CNNs) mit nicht-lokalen Interaktionen zu erweitern. Neuere Arbeiten zeigen, dass es möglich ist, Selbst-Attention-Schichten zu stapeln, um ein vollständig auf Attention basierendes Netzwerk zu erzielen, indem die Aufmerksamkeit auf einen lokalen Bereich beschränkt wird. In dieser Arbeit versuchen wir, diese Beschränkung aufzuheben, indem wir die 2D-Selbst-Attention in zwei 1D-Selbst-Attention-Operationen faktorisieren. Dies reduziert die Berechnungskomplexität und ermöglicht es, Aufmerksamkeit über einen größeren oder sogar globalen Bereich hinweg zu berechnen. Zusätzlich schlagen wir eine positionssensitive Selbst-Attention-Design-Strategie vor. Die Kombination beider Ansätze führt zu unserem neuen Baustein, der positionssensitiven axialen Aufmerksamkeit (position-sensitive axial-attention layer), den man stapeln kann, um axial-Attention-Modelle für Bildklassifikation und dichte Vorhersage zu konstruieren. Wir demonstrieren die Wirksamkeit unseres Modells an vier großen Datensätzen. Insbesondere übertrifft unser Modell alle bestehenden eigenständigen Selbst-Attention-Modelle auf ImageNet. Unser Axial-DeepLab erreicht eine Verbesserung von 2,8 % PQ gegenüber dem bisherigen Stand der Technik auf dem COCO test-dev-Set. Dieser vorherige Bestwert wurde von unserer kleineren Variante erzielt, die 3,8-mal parameter-effizienter und 27-mal rechenzeit-effizienter ist. Axial-DeepLab erzielt zudem state-of-the-art-Ergebnisse auf Mapillary Vistas und Cityscapes.