Pixelweises Klassifizieren reicht nicht aus für die semantische Segmentierung

Moderne Ansätze formulieren die semantische Segmentierung typischerweise als eine pro-Pixel-Klassifikationsaufgabe, während die Instanzsegmentierung mit einer alternativen Masken-Klassifikation behandelt wird. Unser zentrales Insight: Die Masken-Klassifikation ist ausreichend allgemein, um sowohl semantische als auch instanzbasierte Segmentierungsaufgaben einheitlich mit genau demselben Modell, derselben Verlustfunktion und derselben Trainingsprozedur zu lösen. Ausgehend von dieser Beobachtung stellen wir MaskFormer vor, ein einfaches Masken-Klassifikationsmodell, das eine Menge binärer Masken vorhersagt, wobei jede Maske mit einer einzelnen globalen Klassenbezeichnung verknüpft ist. Insgesamt vereinfacht die vorgeschlagene maskenbasierte Klassifikationsmethode das Spektrum wirksamer Ansätze für semantische und panoptische Segmentierungsaufgaben und zeigt hervorragende empirische Ergebnisse. Insbesondere beobachten wir, dass MaskFormer bei einer großen Anzahl von Klassen die herkömmlichen pro-Pixel-Klassifikationsbaselines übertrifft. Die von uns vorgeschlagene Methode erreicht sowohl bei der aktuellen State-of-the-Art-Semantiksegmentierung (55,6 mIoU auf ADE20K) als auch bei der panoptischen Segmentierung (52,7 PQ auf COCO) bessere Ergebnisse als die bestehenden führenden Modelle.