PSTNet: Point Spatio-Temporal Convolution auf Punktwolkenfolgen

Punktewolken-Sequenzen sind im räumlichen Bereich unregelmäßig und ungeordnet, während sie im zeitlichen Bereich Regelmäßigkeiten und Ordnung aufweisen. Daher können vorhandene gitterbasierte Faltungen für die konventionelle Videobearbeitung nicht direkt auf die raumzeitliche Modellierung roher Punktewolken-Sequenzen angewendet werden. In dieser Arbeit schlagen wir eine Punktraumzeitfaltung (PST-Faltung) vor, um informative Darstellungen von Punktewolken-Sequenzen zu erzielen. Die vorgeschlagene PST-Faltung trennt zunächst Raum und Zeit in Punktewolken-Sequenzen. Anschließend wird eine räumliche Faltung verwendet, um die lokale Struktur der Punkte im 3D-Raum zu erfassen, und eine zeitliche Faltung dient zur Modellierung der Dynamik der räumlichen Bereiche entlang der Zeitachse. Des Weiteren integrieren wir die vorgeschlagene PST-Faltung in ein tiefes Netzwerk, das PSTNet genannt wird, um Merkmale von Punktewolken-Sequenzen hierarchisch zu extrahieren. Umfangreiche Experimente mit weit verbreiteten 3D-Aktionserkennungs- und 4D-semantischen Segmentierungsdatensätzen zeigen die Effektivität des PSTNet zur Modellierung von Punktewolken-Sequenzen.