Représentation hiérarchique profonde de vidéos de nuages de points par décomposition spatio-temporelle
Dans les vidéos de nuages de points, les coordonnées des points sont irrégulières et non ordonnées, mais les instants d’acquisition (timestamps) des points présentent une régularité et un ordre. Les réseaux basés sur une grille, utilisés pour le traitement conventionnel des vidéos, ne peuvent pas être directement appliqués au modèleage des vidéos brutes de nuages de points. Par conséquent, dans ce travail, nous proposons un réseau fondé sur les points, capable de traiter directement les vidéos brutes de nuages de points. Premièrement, afin de préserver la structure locale spatio-temporelle des vidéos de nuages de points, nous concevons une « tube de points » couvrant une région locale selon les dimensions spatiale et temporelle. En effectuant une sous-échantillonnage progressif des trames et des points, tout en augmentant le rayon spatial à mesure que les caractéristiques des points sont propagées vers des couches plus élevées, le tube de points permet de capturer la structure vidéo de manière hiérarchique spatio-temporelle. Deuxièmement, pour réduire l’impact de l’irrégularité spatiale sur le modèleage temporel, nous décomposons les dimensions spatiale et temporelle lors de l’extraction des représentations du tube de points. Plus précisément, une opération spatiale est utilisée pour capturer la structure locale de chaque région spatiale au sein du tube, tandis qu’une opération temporelle est appliquée pour modéliser la dynamique des régions spatiales le long du tube.