Mask4Former: Mask Transformer für 4D-Panoptische Segmentierung

Die genaue Wahrnehmung und Verfolgung von Instanzen über die Zeit hinweg ist für die Entscheidungsprozesse autonomer Agenten, die sicher in dynamischen Umgebungen interagieren, entscheidend. Mit diesem Ziel schlagen wir Mask4Former vor, eine innovative Lösung für die anspruchsvolle Aufgabe der 4D-Panoramasegmentierung von LiDAR-Punktwolken. Mask4Former ist der erste transformerbasierte Ansatz, der semantische Instanzsegmentierung und das Tracking dünn besetzter und unregelmäßiger Sequenzen von 3D-Punktwolken in einem einzigen gemeinsamen Modell vereint. Unser Modell prognostiziert semantische Instanzen und ihre zeitlichen Zuordnungen direkt, ohne auf manuell gestaltete, nicht gelernte Zuordnungstrategien wie wahrscheinlichkeitstheoretisches Clustering oder abstimmungsbasierte Zentrumsvorhersage zurückzugreifen. Stattdessen führt Mask4Former räumlich-zeitliche Instanzabfragen ein, die die semantischen und geometrischen Eigenschaften jedes semantischen Tracklets in der Sequenz kodieren. In einer detaillierten Studie stellen wir fest, dass die Förderung räumlich kompakter Instanzvorhersagen entscheidend ist, da räumlich-zeitliche Instanzabfragen dazu neigen, mehrere semantisch ähnliche Instanzen zu verschmelzen, selbst wenn sie räumlich weit voneinander entfernt sind. Hierfür regressieren wir 6-freiheitsgradige (6-DOF) Begrenzungsbox-Parameter aus den räumlich-zeitlichen Instanzabfragen, die als Nebenaufgabe dienen, um räumlich kompakte Vorhersagen zu fördern. Mask4Former erreicht einen neuen Stand der Technik im SemanticKITTI-Testset mit einem Score von 68.4 LSTQ.