Command Palette
Search for a command to run...
Combinaison de l'attention globale et locale avec un encodage de position pour la synthèse vidéo
Combinaison de l'attention globale et locale avec un encodage de position pour la synthèse vidéo
Ioannis Patras Vasileios Mezaris Georgios Balaouras Evlampios Apostolidis
Résumé
Cet article présente une nouvelle méthode pour la synthèse vidéo supervisée. Afin de surmonter les limitations des architectures existantes basées sur les réseaux de neurones récurrents (RNN), notamment en ce qui concerne la modélisation des dépendances entre des cadres éloignés dans le temps et la capacité à paralléliser le processus d'entraînement, le modèle développé repose sur l'utilisation de mécanismes d'attention auto-attention pour estimer l'importance des cadres vidéo. Contrairement aux approches antérieures basées sur l'attention, qui modélisent les dépendances entre cadres en observant toute la séquence de cadres, notre méthode combine des mécanismes d'attention multi-têtes globale et locale afin de découvrir différentes manières de modéliser ces dépendances à différentes échelles de granularité. En outre, les mécanismes d'attention utilisés intègrent une composante qui encode la position temporelle des cadres vidéo — un élément crucial lors de la génération d'un résumé vidéo. Des expériences menées sur deux jeux de données (SumMe et TVSum) démontrent l'efficacité du modèle proposé par rapport aux méthodes d'attention existantes, ainsi que sa compétitivité par rapport à d'autres approches de pointe en synthèse vidéo supervisée. Une étude d'ablation portant sur nos principaux composants proposés — à savoir l'usage conjoint des mécanismes d'attention multi-têtes globale et locale, associés à une composante d'encodage de position absolue — met en évidence leurs contributions respectives à la performance globale de la synthèse vidéo.