Lernen, Dinge und Objekte zu fusionieren

Wir schlagen einen end-to-end Lernansatz für die panoptische Segmentierung vor, eine neuartige Aufgabe, die die Instanzsegmentierung (Dinge) und die semantische Segmentierung (Stoffe) vereint. Unser Modell, TASCNet, nutzt Feature Maps aus einem gemeinsamen Backbone-Netzwerk, um in einem einzigen Vorwärtsdurchgang sowohl Dinge- als auch Stoff-Segmentierungen vorherzusagen. Wir legen diese beiden Ausgabeverteilungen durch eine globale binäre Maske für Dinge und Stoffe explizit fest, um die Widerspruchsfreiheit zwischen den Aufgaben zu gewährleisten. Das von uns vorgeschlagene einheitliche Netzwerk ist wettbewerbsfähig mit dem aktuellen Stand der Technik auf mehreren Benchmarks für panoptische Segmentierung sowie bei den einzelnen Aufgaben der semantischen und Instanzsegmentierung.