PanopticFusion: Online-Volumetrische Semantische Kartierung auf der Ebene von Objekten und Materialien

Wir schlagen PanopticFusion vor, ein neues Online-Volumetrisches Semantisches Kartierungssystem auf der Ebene von Hintergrund (Stuff) und Vordergrundobjekten (Things). Im Gegensatz zu früheren semantischen Kartierungssystemen ist PanopticFusion in der Lage, dicht Klassifizierungslabels für eine Hintergrundregion (Stuff) vorherzusagen und beliebige Vordergrundobjekte (Things) einzeln zu segmentieren. Zudem verfügt unser System über die Fähigkeit, große Szenen wiederzugeben und ein beschriftetes Netz zu extrahieren, dank seiner Verwendung einer räumlich gehashten volumetrischen Kartenrepräsentation. Unser System prognostiziert zunächst pixelweise panoptische Labels (Klassifizierungslabels für Hintergrundregionen und Instanz-IDs für Vordergrundobjekte) für eingehende RGB-Bilder durch die Fusion von 2D-semantischer und instanzbasierter Segmentierungsausgaben. Die vorhergesagten panoptischen Labels werden zusammen mit Tiefenmessungen in die volumetrische Karte integriert, wobei die Konsistenz der Instanz-IDs gewährleistet wird, die von Bild zu Bild variieren können, indem auf die aktuelle 3D-Karte zurückgegriffen wird. Darüber hinaus bauen wir ein vollständig vernetztes bedingtes Markow-Netzwerk (CRF) Modell bezüglich der panoptischen Labels zur Regularisierung der Karte auf. Für die Online-CRF-Inferenz schlagen wir eine neue Approximation des unären Potentials sowie eine Strategie zur Kartenteilung vor.Wir haben die Leistungsfähigkeit unseres Systems anhand des ScanNet (v2)-Datensatzes evaluiert. PanopticFusion übertrifft oder hält sich mit den besten Offline-3D-DNN-Methoden in den Benchmarks sowohl der semantischen als auch der instanzbasierten Segmentierung. Des Weiteren zeigen wir eine vielversprechende Anwendung im Bereich Augmented Reality unter Verwendung einer durch das vorgeschlagene System generierten 3D-Panoptik-Karte.