HyperAIHyperAI

Command Palette

Search for a command to run...

Découplage et recouplage de la représentation spatio-temporelle pour la reconnaissance de mouvements basée sur les données RGB-D

Benjia Zhou Pichao Wang Jun Wan Yanyan Liang Fan Wang Du Zhang Zhen Lei Hao Li Rong Jin

Résumé

Le découplage de la représentation spatio-temporelle consiste à décomposer les caractéristiques spatiales et temporelles en facteurs indépendants des dimensions. Bien que les méthodes précédentes de reconnaissance de mouvement basées sur les données RGB-D aient atteint des performances prometteuses grâce à une représentation spatio-temporelle multi-modale fortement couplée, elles souffrent encore de trois principaux inconvénients : (i) des difficultés d'optimisation dans les scénarios à faible quantité de données, dues à un modèle fortement entrelacé spatialement et temporellement ; (ii) une redondance d'information, car celles-ci contiennent souvent de nombreuses informations marginales faiblement pertinentes pour la classification ; et (iii) une faible interaction entre les informations spatio-temporelles multi-modales, résultant d'une fusion tardive insuffisante. Pour atténuer ces limites, nous proposons une approche de découplage puis de recouplage de la représentation spatio-temporelle pour la reconnaissance de mouvement basée sur les données RGB-D. Plus précisément, nous décomposons la tâche d'apprentissage de la représentation spatio-temporelle en trois sous-tâches : (1) l'apprentissage de caractéristiques de haute qualité et indépendantes des dimensions grâce à un réseau de modélisation spatiale et temporelle découplée ; (2) le recouplage de la représentation découplée afin d’établir une dépendance spatiale et temporelle plus forte ; (3) l’introduction d’un mécanisme de fusion postérieure adaptative cross-modale (CAPF) pour capturer efficacement les informations spatio-temporelles cross-modales à partir des données RGB-D. La combinaison fluide de ces innovations forme une représentation spatio-temporelle robuste, qui surpassent les méthodes de pointe sur quatre jeux de données publics de reconnaissance de mouvement. Le code source est disponible à l’adresse suivante : https://github.com/damo-cv/MotionRGBD.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp