Se souvenir de ce qui est important : une méthode factorisée à tête de récupération multiple et à stabilisation de mémoire auxiliaire pour la prédiction du mouvement humain

Les êtres humains effectuent des mouvements complexes qui varient selon la tâche qu’ils accomplissent, les interactions auxquelles ils participent, ainsi que leurs préférences propres. Par conséquent, prédire les postures futures à partir de l’historique des mouvements passés constitue une tâche particulièrement difficile. Ce papier présente un cadre innovant basé sur un réseau de neurones profond doté d’une mémoire auxiliaire, conçu pour améliorer la modélisation des connaissances historiques. Plus précisément, nous décomposons les informations spécifiques à l’individu, spécifiques à la tâche et autres informations auxiliaires à partir des séquences d’observations de postures, puis utilisons ces caractéristiques factorisées pour interroger la mémoire. Un nouveau schéma de récupération de connaissances à plusieurs têtes exploite ces embeddings de caractéristiques factorisées afin d’effectuer plusieurs opérations d’interrogation sur les observations historiques stockées dans la mémoire auxiliaire. En outre, notre stratégie dynamique de masquage rend le processus de factorisation des caractéristiques dynamique. Deux nouvelles fonctions de perte sont introduites afin de favoriser la diversité au sein de la mémoire auxiliaire tout en assurant la stabilité de son contenu, de manière à permettre la localisation et le stockage d’informations saillantes utiles à la prédiction à long terme des mouvements futurs, indépendamment des déséquilibres de données ou de la diversité de la distribution des données d’entrée. À l’aide d’expériences étendues menées sur deux benchmarks publics, Human3.6M et CMU-Mocap, nous démontrons que ces choix de conception permettent collectivement à l’approche proposée de surpasser de manière significative les méthodes de pointe actuelles : de plus de 17 % sur le jeu de données Human3.6M et de plus de 9 % sur le jeu de données CMU-Mocap.