HyperAIHyperAI
il y a 2 mois

CSTA : Attention spatio-temporelle basée sur CNN pour la synthèse vidéo

Jaewon Son; Jaehun Park; Kwangsu Kim
CSTA : Attention spatio-temporelle basée sur CNN pour la synthèse vidéo
Résumé

La synthèse vidéo vise à générer une représentation concise d'une vidéo, en capturant son contenu essentiel et ses moments clés tout en réduisant sa durée totale. Bien que plusieurs méthodes utilisent des mécanismes d'attention pour gérer les dépendances à long terme, elles échouent souvent à saisir la signification visuelle inhérente aux images. Pour remédier à cette limitation, nous proposons une méthode d'Attention SpatioTemporelle basée sur un CNN (CSTA) qui empile chaque caractéristique des images provenant d'une seule vidéo pour former des représentations d'images similaires et applique un CNN 2D à ces caractéristiques d'images. Notre méthodologie repose sur le CNN pour comprendre les relations inter-images et intra-images et pour identifier les attributs cruciaux dans les vidéos en exploitant sa capacité à apprendre les positions absolues au sein des images. Contrairement aux travaux précédents qui compromettent l'efficacité en concevant des modules supplémentaires pour se concentrer sur l'importance spatiale, CSTA nécessite un surcoût de calcul minimal car il utilise le CNN comme une fenêtre glissante. Des expériences approfondies sur deux jeux de données de référence (SumMe et TVSum) montrent que notre approche proposée atteint des performances de pointe avec moins de MACs par rapport aux méthodes précédentes. Les codes sont disponibles à l'adresse suivante : https://github.com/thswodnjs3/CSTA.

CSTA : Attention spatio-temporelle basée sur CNN pour la synthèse vidéo | Articles de recherche récents | HyperAI