Panoptische Merkmalspyramiden-Netzwerke

Die kürzlich eingeführte panoptische Segmentierungsaufgabe hat das Interesse unserer Gemeinschaft daran erneuert, die Aufgaben der Instanzsegmentierung (für Objektklassen) und der semantischen Segmentierung (für Stoffklassen) zu vereinen. Aktuelle Methoden für diese kombinierte Aufgabe verwenden jedoch getrennte und unterschiedliche Netzwerke für Instanz- und semantische Segmentierung, ohne gemeinsame Berechnungen durchzuführen. In dieser Arbeit streben wir an, diese Methoden auf architektonischer Ebene zu vereinen und ein einziges Netzwerk für beide Aufgaben zu entwerfen. Unser Ansatz besteht darin, Mask R-CNN, eine weit verbreitete Methode der Instanzsegmentierung, mit einer semantischen Segmentierungsstufe ausgestattet zu haben, die ein gemeinsames Feature Pyramid Network (FPN)-Backbone nutzt. Überraschenderweise bleibt dieses einfache Baseline-Modell nicht nur effektiv für die Instanzsegmentierung, sondern liefert auch eine leichte, hochleistungsfähige Methode für die semantische Segmentierung. In dieser Arbeit führen wir eine detaillierte Studie dieses minimal erweiterten Mask R-CNN mit FPN durch, das wir als Panoptic FPN bezeichnen, und zeigen, dass es ein robustes und genaues Baseline-Modell für beide Aufgaben ist. Angesichts seiner Effektivität und konzeptionellen Einfachheit hoffen wir, dass unsere Methode als starke Baseline dienen kann und zukünftige Forschung im Bereich der panoptischen Segmentierung fördert.