vor 17 Tagen

Hierarchische Multi-Skalen-Attention für die semantische Segmentierung

Andrew Tao, Karan Sapra, Bryan Catanzaro

Abstract

Die mehrskalige Inferenz wird häufig eingesetzt, um die Ergebnisse der semantischen Segmentierung zu verbessern. Dabei werden mehrere Bildskalen durch ein Netzwerk geleitet und die resultierenden Vorhersagen anschließend durch Mittelwertbildung oder Max-Pooling kombiniert. In dieser Arbeit präsentieren wir einen auf Aufmerksamkeit basierenden Ansatz zur Kombination mehrskaliger Vorhersagen. Wir zeigen, dass Vorhersagen auf bestimmten Skalen besser geeignet sind, bestimmte Fehlfunktionen zu beheben, und dass das Netzwerk lernt, diese Skalen in solchen Fällen bevorzugt zu nutzen, um genauere Vorhersagen zu generieren. Unser Aufmerksamkeitsmechanismus ist hierarchisch aufgebaut, wodurch er im Vergleich zu anderen jüngeren Ansätzen etwa viermal speichereffizienter beim Training ist. Zusätzlich zur beschleunigten Trainingszeit ermöglicht dies ein Training mit größeren Bildausschnitten, was zu höherer Modellgenauigkeit führt. Wir demonstrieren die Leistungsfähigkeit unseres Ansatzes an zwei Datensätzen: Cityscapes und Mapillary Vistas. Für Cityscapes, das eine große Anzahl an schwach beschrifteten Bildern enthält, nutzen wir zudem Auto-Labelling, um die Generalisierungsfähigkeit zu verbessern. Mit unserem Ansatz erreichen wir neue SOTA-Ergebnisse sowohl auf Mapillary (61,1 IOU Val) als auch auf Cityscapes (85,1 IOU Test).