HyperAIHyperAI

Command Palette

Search for a command to run...

Un cadre unifié de découplage et de récouplage multimodal pour la reconnaissance du mouvement RGB-D

Benjia Zhou Pichao Wang Jun Wan Yanyan Liang Fan Wang

Résumé

La reconnaissance du mouvement est une direction prometteuse en vision par ordinateur, mais l’entraînement des modèles de classification vidéo s’avère bien plus difficile que celui des modèles d’image en raison d’un manque de données et du grand nombre de paramètres. Pour surmonter ces difficultés, certaines recherches cherchent à exploiter des indices multimodaux issus de données RGB-D. Bien que ces approches améliorent partiellement la reconnaissance du mouvement, elles restent confrontées à des limitations dans plusieurs aspects : (i) l’augmentation des données, c’est-à-dire que la taille des jeux de données RGB-D reste limitée, et peu d’efforts ont été consacrés à l’exploration de nouvelles stratégies d’augmentation pour les vidéos ; (ii) le mécanisme d’optimisation, car la structure réseau fortement imbriquée dans l’espace et le temps pose des défis supplémentaires à la modélisation de l’information spatio-temporelle ; et (iii) la fusion de connaissances entre modalités, où la forte similarité entre les représentations multimodales entraîne une fusion tardive insuffisante. Afin de réduire ces inconvénients, nous proposons dans cet article d’améliorer la reconnaissance du mouvement basée sur les données RGB-D à la fois du point de vue des données et de celui des algorithmes. Plus précisément, nous introduisons tout d’abord une nouvelle méthode d’augmentation vidéo, nommée ShuffleMix, qui complète MixUp en apportant une régularisation temporelle supplémentaire pour la reconnaissance du mouvement. Ensuite, nous proposons un cadre unifié de découplage multimodal et de recouplage multi-étapes, appelé UMDR, dédié à l’apprentissage de représentations vidéo. Enfin, nous explorons un nouveau module de capture de caractéristiques complémentaires entre modalités, appelé CFCer, conçu pour extraire des caractéristiques communes potentielles présentes dans les informations multimodales afin de constituer un flux d’ajustement auxiliaire, améliorant ainsi les résultats de fusion tardive. La combinaison fluide de ces innovations permet de construire une représentation spatio-temporelle robuste, qui atteint des performances supérieures à celles des méthodes de l’état de l’art sur quatre jeux de données publics de reconnaissance du mouvement. En particulier, UMDR obtient une amélioration sans précédent de +4,5 % sur le jeu de données Chalearn IsoGD. Le code source est disponible à l’adresse suivante : https://github.com/zhoubenjia/MotionRGBD-PAMI.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Un cadre unifié de découplage et de récouplage multimodal pour la reconnaissance du mouvement RGB-D | Articles | HyperAI