il y a 17 jours

Un cadre unifié de découplage et de récouplage multimodal pour la reconnaissance du mouvement RGB-D

Benjia Zhou, Pichao Wang, Jun Wan, Yanyan Liang, Fan Wang

Résumé

La reconnaissance du mouvement est une direction prometteuse en vision par ordinateur, mais l’entraînement des modèles de classification vidéo s’avère bien plus difficile que celui des modèles d’image en raison d’un manque de données et du grand nombre de paramètres. Pour surmonter ces difficultés, certaines recherches cherchent à exploiter des indices multimodaux issus de données RGB-D. Bien que ces approches améliorent partiellement la reconnaissance du mouvement, elles restent confrontées à des limitations dans plusieurs aspects : (i) l’augmentation des données, c’est-à-dire que la taille des jeux de données RGB-D reste limitée, et peu d’efforts ont été consacrés à l’exploration de nouvelles stratégies d’augmentation pour les vidéos ; (ii) le mécanisme d’optimisation, car la structure réseau fortement imbriquée dans l’espace et le temps pose des défis supplémentaires à la modélisation de l’information spatio-temporelle ; et (iii) la fusion de connaissances entre modalités, où la forte similarité entre les représentations multimodales entraîne une fusion tardive insuffisante. Afin de réduire ces inconvénients, nous proposons dans cet article d’améliorer la reconnaissance du mouvement basée sur les données RGB-D à la fois du point de vue des données et de celui des algorithmes. Plus précisément, nous introduisons tout d’abord une nouvelle méthode d’augmentation vidéo, nommée ShuffleMix, qui complète MixUp en apportant une régularisation temporelle supplémentaire pour la reconnaissance du mouvement. Ensuite, nous proposons un cadre unifié de découplage multimodal et de recouplage multi-étapes, appelé UMDR, dédié à l’apprentissage de représentations vidéo. Enfin, nous explorons un nouveau module de capture de caractéristiques complémentaires entre modalités, appelé CFCer, conçu pour extraire des caractéristiques communes potentielles présentes dans les informations multimodales afin de constituer un flux d’ajustement auxiliaire, améliorant ainsi les résultats de fusion tardive. La combinaison fluide de ces innovations permet de construire une représentation spatio-temporelle robuste, qui atteint des performances supérieures à celles des méthodes de l’état de l’art sur quatre jeux de données publics de reconnaissance du mouvement. En particulier, UMDR obtient une amélioration sans précédent de +4,5 % sur le jeu de données Chalearn IsoGD. Le code source est disponible à l’adresse suivante : https://github.com/zhoubenjia/MotionRGBD-PAMI.