HyperAIHyperAI
il y a 16 jours

Résumé vidéo non supervisé par apprentissage adversaire piloté par l'attention

{Ioannis Patras, Vasileios Mezaris, Alexandros I. Metsai, Eleni Adamantidou, Evlampios Apostolidis}
Résumé

Cet article présente une nouvelle approche de synthèse vidéo intégrant un mécanisme d’attention afin d’identifier les parties significatives de la vidéo, et entraînée de manière non supervisée via un apprentissage génératif adversaire. À partir du modèle SUM-GAN, nous développons d’abord une version améliorée (appelée SUM-GAN-sl), qui présente un nombre réduit de paramètres appris, permet un entraînement incrémentiel des composants du modèle, et applique une stratégie par étapes basée sur des étiquettes pour mettre à jour la partie adverse. Ensuite, nous introduisons un mécanisme d’attention dans SUM-GAN-sl de deux manières : (i) en intégrant une couche d’attention dans le variational auto-encodeur (VAE) de l’architecture (SUM-GAN-VAAE), et (ii) en remplaçant le VAE par un auto-encodeur à attention déterministe (SUM-GAN-AAE). Une évaluation expérimentale menée sur deux jeux de données (SumMe et TVSum) met en évidence la contribution de l’auto-encodeur à attention à un entraînement plus rapide et plus stable du modèle, conduisant à une amélioration significative des performances par rapport au modèle original, et démontrant la compétitivité du modèle proposé SUM-GAN-AAE face aux états de l’art.

Résumé vidéo non supervisé par apprentissage adversaire piloté par l'attention | Articles de recherche récents | HyperAI