Découplage et recouplage de la représentation spatio-temporelle pour la reconnaissance de mouvements basée sur les données RGB-D

Le découplage de la représentation spatio-temporelle consiste à décomposer les caractéristiques spatiales et temporelles en facteurs indépendants des dimensions. Bien que les méthodes précédentes de reconnaissance de mouvement basées sur les données RGB-D aient atteint des performances prometteuses grâce à une représentation spatio-temporelle multi-modale fortement couplée, elles souffrent encore de trois principaux inconvénients : (i) des difficultés d'optimisation dans les scénarios à faible quantité de données, dues à un modèle fortement entrelacé spatialement et temporellement ; (ii) une redondance d'information, car celles-ci contiennent souvent de nombreuses informations marginales faiblement pertinentes pour la classification ; et (iii) une faible interaction entre les informations spatio-temporelles multi-modales, résultant d'une fusion tardive insuffisante. Pour atténuer ces limites, nous proposons une approche de découplage puis de recouplage de la représentation spatio-temporelle pour la reconnaissance de mouvement basée sur les données RGB-D. Plus précisément, nous décomposons la tâche d'apprentissage de la représentation spatio-temporelle en trois sous-tâches : (1) l'apprentissage de caractéristiques de haute qualité et indépendantes des dimensions grâce à un réseau de modélisation spatiale et temporelle découplée ; (2) le recouplage de la représentation découplée afin d’établir une dépendance spatiale et temporelle plus forte ; (3) l’introduction d’un mécanisme de fusion postérieure adaptative cross-modale (CAPF) pour capturer efficacement les informations spatio-temporelles cross-modales à partir des données RGB-D. La combinaison fluide de ces innovations forme une représentation spatio-temporelle robuste, qui surpassent les méthodes de pointe sur quatre jeux de données publics de reconnaissance de mouvement. Le code source est disponible à l’adresse suivante : https://github.com/damo-cv/MotionRGBD.