kMaX-DeepLab: k-means Mask Transformer

Der Aufstieg von Transformatoren in visuellen Aufgaben führt nicht nur zu Fortschritten bei der Gestaltung von Netzwerkbackbones, sondern eröffnet auch eine völlig neue Phase für die durchgängige Bilderkennung (z.B. Objekterkennung und panoptische Segmentierung). Ursprünglich aus der Natürlichen Sprachverarbeitung (NLP) stammend, lernen Transformer-Architekturen, die sich aus Selbst- und Kreuzaufmerksamkeit zusammensetzen, effektiv langreichweitige Interaktionen zwischen Elementen in einer Sequenz. Allerdings beobachten wir, dass die meisten existierenden transformerbasierten visuellen Modelle einfach Ideen aus dem NLP übernehmen und dabei den entscheidenden Unterschied zwischen Sprache und Bildern vernachlässigen, insbesondere die extrem große Sequenzlänge räumlich flachgelegter Pixelmerkmale. Dies behindert im Anschluss das Lernen in der Kreuzaufmerksamkeit zwischen Pixelmerkmalen und Objektanfragen. In dieser Arbeit überdenken wir die Beziehung zwischen Pixeln und Objektanfragen und schlagen vor, das Lernen der Kreuzaufmerksamkeit als einen Clustering-Prozess umzuformulieren. Inspiriert durch den traditionellen k-Means-Clustering-Algorithmus entwickeln wir einen k-Means Mask Xformer (kMaX-DeepLab) für Segmentierungsaufgaben, der nicht nur den Stand der Technik verbessert, sondern auch eine einfache und elegante Struktur aufweist. Als Ergebnis erreicht unser kMaX-DeepLab ohne Testzeit-Augmentierung oder externe Datensätze eine neue Spitzenleistung auf dem COCO Val-Datensatz mit 58,0% PQ, dem Cityscapes Val-Datensatz mit 68,4% PQ, 44,0% AP und 83,5% mIoU sowie auf dem ADE20K Val-Datensatz mit 50,9% PQ und 55,2% mIoU. Wir hoffen, dass unsere Arbeit Licht ins Dunkel bringt bei der Entwicklung von Transformatoren, die speziell für visuelle Aufgaben angepasst sind. TensorFlow-Code und -Modelle sind unter https://github.com/google-research/deeplab2 verfügbar. Eine Neuimplementierung in PyTorch ist ebenfalls unter https://github.com/bytedance/kmax-deeplab erhältlich.