vor 17 Tagen

Panoptic SegFormer: Tiefere Einblicke in die Panoptische Segmentierung mit Transformers

Zhiqi Li, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, Tong Lu

Abstract

Die Panoptic-Segmentation kombiniert semantische Segmentierung und Instance-Segmentation und unterteilt Bildinhalte in zwei Kategorien: „Things“ (Dinge) und „Stuff“ (Materialien). Wir stellen Panoptic SegFormer vor, einen allgemeinen Rahmen für die Panoptic-Segmentation basierend auf Transformers. Der Ansatz umfasst drei innovative Komponenten: einen effizienten tiefenüberwachten Masken-Decoder, eine Query-Entkopplungsstrategie sowie eine verbesserte Nachverarbeitungsmethode. Zudem nutzen wir Deformable DETR, um mehrskalige Merkmale effizient zu verarbeiten – eine schnelle und effiziente Variante von DETR. Konkret überwachen wir die Aufmerksamkeitsmodule im Masken-Decoder schichtweise. Diese tiefe Überwachungsstrategie ermöglicht es den Aufmerksamkeitsmodulen, sich schnell auf bedeutungsvolle semantische Regionen zu konzentrieren und verbessert die Leistung erheblich, wobei die Anzahl der benötigten Trainings-Epochen im Vergleich zu Deformable DETR halbiert werden kann. Unsere Query-Entkopplungsstrategie entkoppelt die Aufgaben der Query-Menge und vermeidet gegenseitige Störungen zwischen „Things“ und „Stuff“. Darüber hinaus verbessert unsere Nachverarbeitungsstrategie die Leistung ohne zusätzlichen Aufwand, indem sie Klassifikations- und Segmentierungsqualität gemeinsam berücksichtigt, um widersprüchliche Maskenüberlappungen zu lösen. Unser Ansatz steigert die Genauigkeit um 6,2 % PQ im Vergleich zum Basis-DETR-Modell. Panoptic SegFormer erreicht mit 56,2 % PQ state-of-the-art-Ergebnisse auf dem COCO test-dev-Datensatz und zeigt darüber hinaus eine stärkere Robustheit im Zero-Shot-Szenario gegenüber bestehenden Methoden. Der Quellcode ist unter \url{https://github.com/zhiqi-li/Panoptic-SegFormer} verfügbar.