HyperAIHyperAI
il y a 9 jours

Prédiction vidéo par rappel du contexte motionnel à long terme via l'apprentissage d'alignement mémoire

Sangmin Lee, Hak Gu Kim, Dae Hwi Choi, Hyung-Il Kim, Yong Man Ro
Prédiction vidéo par rappel du contexte motionnel à long terme via l'apprentissage d'alignement mémoire
Résumé

Notre travail aborde les problèmes liés au contexte motionnel à long terme dans la prédiction des trames futures. Pour prédire avec précision l’évolution future, il est essentiel de déterminer à quel contexte motionnel à long terme (par exemple, marcher ou courir) appartient le mouvement d’entrée (par exemple, les mouvements des jambes). Les principaux verrous rencontrés dans la gestion du contexte motionnel à long terme sont les suivants : (i) comment prédire naturellement le contexte motionnel à long terme tout en s’alignant sur des séquences d’entrée présentant des dynamiques limitées ; (ii) comment prédire ce contexte dans des espaces à haute dimension (par exemple, des mouvements complexes). Pour surmonter ces défis, nous proposons une nouvelle méthode de prédiction vidéo sensible au contexte motionnel. Pour résoudre le verrou (i), nous introduisons une mémoire de contexte motionnel à long terme (LMC-Memory) basée sur un apprentissage d’alignement de mémoire. Cet apprentissage permet de stocker efficacement des contextes motionnels à long terme dans la mémoire et de les aligner avec des séquences présentant des dynamiques restreintes. Ainsi, le contexte à long terme peut être rappelé à partir d’une séquence d’entrée à faible richesse dynamique. En outre, pour traiter le verrou (ii), nous proposons une décomposition des requêtes de mémoire, permettant de stocker des contextes locaux (c’est-à-dire des dynamiques à faible dimension) et de rappeler de manière individuelle le contexte local approprié pour chaque partie locale de l’entrée. Cette approche renforce significativement l’effet d’alignement de la mémoire. Les résultats expérimentaux montrent que la méthode proposée surpasser les autres méthodes sophistiquées basées sur les RNN, notamment dans des conditions à long terme. En outre, nous validons l’efficacité des architectures proposées à l’aide d’études d’ablation et d’une analyse des caractéristiques de la mémoire. Le code source de ce travail est disponible.