Punkt-4D-Transformer-Netzwerke für die räumlich-zeitliche Modellierung in Punktwolken-Videos

Punktwolken-Videos weisen Irregularitäten und fehlende Ordnung entlang der räumlichen Dimension auf, da Punkte in den verschiedenen Frames unregelmäßig auftreten. Um die Dynamik in Punktwolken-Videos zu erfassen, wird üblicherweise Punktpositionsverfolgung eingesetzt. Da jedoch Punkte zwischen den Frames hinzukommen oder verschwinden können, ist die Berechnung genauer Punktbahnen äußerst schwierig. Zudem basiert die Verfolgung meist auf Punktfarben und kann daher bei farblosen Punktwolken versagen. In diesem Artikel schlagen wir ein neuartiges Point 4D Transformer (P4Transformer)-Netzwerk vor, um rohe Punktwolken-Videos zu modellieren, ohne auf Punktpositionsverfolgung angewiesen zu sein. Konkret besteht das P4Transformer aus (i) einer 4D-Punktkonvolution zur Einbettung der räumlich-zeitlichen lokalen Strukturen in einem Punktwolken-Video und (ii) einem Transformer, der mittels Selbst-Attention über die eingebetteten lokalen Merkmale die Erscheinungs- und Bewegungsinformationen über das gesamte Video hinweg erfasst. Auf diese Weise werden verwandte oder ähnliche lokale Bereiche durch Aufmerksamkeitsgewichte zusammengefasst, anstatt explizit verfolgt zu werden. Umfangreiche Experimente, darunter 3D-Aktionserkennung und 4D-Semantische Segmentierung, auf vier Benchmarks belegen die Wirksamkeit unseres P4Transformer für die Modellierung von Punktwolken-Videos.