4D Panoptische Segmentierung als invariantes und äquivariantes Feldvorhersage

In dieser Arbeit entwickeln wir rotationsäquivariante neuronale Netze für die 4D-Panoptik-Segmentierung. Die 4D-Panoptik-Segmentierung ist eine Benchmark-Aufgabe im Bereich der autonomen Fahrt, die das Erkennen semantischer Klassen und Objektinstanzen auf der Straße basierend auf LiDAR-Scans sowie das Zuweisen temporal konsistenter IDs zu Instanzen über die Zeit erfordert. Wir beobachten, dass das Fahrsszenario gegenüber Rotationen in der Bodenebene symmetrisch ist. Daher könnte Rotationsäquivarianz bessere Generalisierung und robusteres Feature-Lernen bieten.Speziell betrachten wir Strategien zur Clustering von Objektinstanzen und formulieren den zentrumsbasierten Ansatz (centerness-based approach) und den Offset-basierten Ansatz (offset-based approach) als die Vorhersage invarianter Skalarfelder und äquivarianter Vektorfelder. Andere Teilprobleme werden ebenfalls aus dieser Perspektive vereint, und verschiedene invariante und äquivariante Schichten werden entworfen, um ihre Vorhersagen zu erleichtern. Durch die Auswertung am Standard-Benchmark für 4D-Panoptik-Segmentierung von SemanticKITTI zeigen wir, dass unsere äquivarianten Modelle eine höhere Genauigkeit bei geringeren Rechenkosten erreichen im Vergleich zu ihren nicht-äquivarianten Gegenstücken. Darüber hinaus stellt unsere Methode einen neuen Stand der Technik dar und erreicht den ersten Platz auf dem SemanticKITTI 4D Panoptik-Segmentierung-Leaderboard.