HyperAIHyperAI
il y a 16 jours

Réseaux Transformer 4D pour la modélisation spatio-temporelle dans les vidéos de nuages de points

{Mohan Kankanhalli, Yi Yang, Hehe Fan}
Réseaux Transformer 4D pour la modélisation spatio-temporelle dans les vidéos de nuages de points
Résumé

Les vidéos de nuages de points présentent des irrégularités et un manque d’ordre selon la dimension spatiale, les points apparaissant de manière incohérente d’un cadre à l’autre. Pour capturer les dynamiques dans les vidéos de nuages de points, on recourt généralement au suivi de points. Toutefois, puisque les points peuvent entrer ou sortir entre les cadres, le calcul de trajectoires précises s’avère extrêmement difficile. En outre, le suivi repose souvent sur les couleurs des points, ce qui le rend inopérant pour les nuages de points sans couleur. Dans cet article, afin d’éviter le suivi de points, nous proposons un nouveau réseau, le P4Transformer, dédié à la modélisation des vidéos de nuages de points brutes. Plus précisément, le P4Transformer se compose de (i) une convolution 4D sur les points, destinée à encoder les structures locales spatio-temporelles présentes dans une vidéo de nuage de points, et de (ii) un transformateur qui capte l’information d’apparence et de mouvement sur l’ensemble de la vidéo en appliquant une attention self-sur les caractéristiques locales encodées. Ainsi, des régions locales similaires ou corrélées sont fusionnées à l’aide de poids d’attention, sans recourir à un suivi explicite. Des expériences étendues, incluant la reconnaissance d’actions 3D et la segmentation sémantique 4D, menées sur quatre benchmarks, démontrent l’efficacité de notre P4Transformer pour la modélisation des vidéos de nuages de points.