MaX-DeepLab: End-to-End Panoptic Segmentation mit Mask Transformers

Wir stellen MaX-DeepLab vor, das erste end-to-end-Modell für Panoptic-Segmentation. Unser Ansatz vereinfacht die derzeitige Pipeline, die stark von indirekten Teil-Aufgaben und handgefertigten Komponenten abhängt, wie beispielsweise Box-Detektion, Non-Maximum-Suppression oder die Fusion von „Things“ und „Stuff“. Obwohl diese Teil-Aufgaben von Spezialisten bearbeitet werden, gelingt es ihnen nicht, die Ziel-Aufgabe umfassend zu lösen. Im Gegensatz dazu prognostiziert unser MaX-DeepLab direkt klassenbeschriftete Masken mittels eines Masken-Transformers und wird mit einer auf der Panoptic-Qualität basierenden Verlustfunktion über bipartite Zuordnung trainiert. Der Masken-Transformer nutzt eine Dual-Path-Architektur, die neben einem CNN-Pfad einen globalen Gedächtnis-Pfad einführt, wodurch eine direkte Kommunikation mit beliebigen CNN-Schichten ermöglicht wird. Dadurch erzielt MaX-DeepLab auf dem anspruchsvollen COCO-Datensatz im box-freien Modus eine signifikante Verbesserung um 7,1 % PQ und schließt erstmals die Lücke zwischen box-basierten und box-freien Methoden. Eine kompakte Variante von MaX-DeepLab erreicht gegenüber DETR bei vergleichbaren Parametern und M-Adds eine Verbesserung um 3,0 % PQ. Zudem erreicht MaX-DeepLab ohne Test-Time-Augmentation eine neue SOTA-Leistung von 51,3 % PQ auf dem COCO Test-Dev-Set. Der Quellcode ist unter https://github.com/google-research/deeplab2 verfügbar.