OneFormer3D: Ein Transformer für die einheitliche Segmentierung von Punktwolken

Die semantische, instanz- und panoptische Segmentierung von 3D-Punktwolken wurde bisher mit auf spezifische Aufgaben zugeschnittenen Modellen unterschiedlicher Architektur angegangen. Dabei wurden die Ähnlichkeiten aller Segmentierungsaufgaben sowie die impliziten Beziehungen zwischen ihnen nicht ausreichend genutzt. In diesem Artikel wird ein einheitliches, einfaches und effektives Modell vorgestellt, das alle drei Aufgaben gemeinsam bearbeitet. Das Modell, OneFormer3D genannt, führt die Instanz- und semantische Segmentierung konsistent durch, indem es eine Gruppe lernbarer Kerne verwendet, wobei jeder Kern für die Erzeugung einer Maske entweder für eine Instanz oder eine semantische Kategorie zuständig ist. Diese Kerne werden mit einem transformerbasierten Decoder trainiert, wobei einheitliche Instanz- und semantische Abfragen als Eingabe verwendet werden. Diese Architektur ermöglicht ein end-to-end-Training in einer einzigen Trainingsrunde und erreicht gleichzeitig Spitzenleistung bei allen drei Segmentierungsaufgaben. Konkret erreicht unser OneFormer3D die erste Platzierung und setzt eine neue State-of-the-Art-Leistung (+2,1 mAP50) auf dem ScanNet-Testleaderboard. Zudem zeigen wir state-of-the-art-Ergebnisse bei der semantischen, instanz- und panoptischen Segmentierung der Datensätze ScanNet (+21 PQ), ScanNet200 (+3,8 mAP50) und S3DIS (+0,8 mIoU).