MAU : Une unité sensible au mouvement pour la prédiction vidéo et au-delà

La prédiction précise des informations de mouvement entre cadres joue un rôle fondamental dans les tâches de prédiction vidéo. Dans cet article, nous proposons une Unité Aware au Mouvement (MAU) afin de capturer des informations fiables de mouvement inter-cadres en élargissant le champ réceptif temporel des unités prédictives. La MAU se compose de deux modules : un module d’attention et un module de fusion. Le module d’attention vise à apprendre une carte d’attention basée sur les corrélations entre l’état spatial actuel et les états spatiaux historiques. À partir de la carte d’attention apprise, les états temporels historiques sont agrégés pour former une information de mouvement augmentée (AMI). Ainsi, l’unité prédictive peut percevoir davantage de dynamiques temporelles à partir d’un champ réceptif plus étendu. Ensuite, le module de fusion est utilisé pour agréger davantage l’information de mouvement augmentée (AMI) et l’information d’apparence actuelle (état spatial actuel) afin de générer le cadre prédit final. La charge de calcul de la MAU est relativement faible, et l’unité proposée peut être facilement intégrée à d’autres modèles prédictifs. En outre, un mécanisme de rappel d’information est introduit dans les encodeurs et les décodeurs afin de préserver les détails visuels des prédictions. Nous évaluons la MAU sur des tâches de prédiction vidéo et de reconnaissance précoce d’actions. Les résultats expérimentaux montrent que la MAU surpassent les méthodes de pointe sur ces deux tâches.