HyperAIHyperAI
il y a 12 jours

Intégration de l'apprentissage auto-supervisé à la synthèse vidéo non supervisée via un score de restauration.

{Parvaneh Saeedi, Mehryar Abbasi}
Résumé

Dans cet article, nous présentons un nouveau processus permettant de générer des résumés vidéo de manière non supervisée. Notre approche consiste à entraîner un modèle d'encodeur Transformer afin de reconstruire les cadres manquants dans une vidéo de manière auto-supervisée, en utilisant une vidéo partiellement masquée comme entrée. Nous introduisons ensuite un algorithme qui exploite l'encodeur entraîné pour attribuer un score d'importance à chaque cadre. Ces scores d'importance sont ensuite utilisés pour construire le résumé vidéo. Nous montrons que la perte de reconstruction du modèle sur une vidéo comportant des cadres masqués est corrélée avec la représentativité des cadres restants. Nous validons l'efficacité de notre méthode sur deux jeux de données de référence, TVSum et SumMe. Nous démontrons qu'elle surpasse les méthodes de pointe (SOTA). En outre, notre approche s'avère plus stable pendant le processus d'entraînement que les techniques de pointe basées sur l'apprentissage adversaire génératif. Le code source de notre travail est disponible publiquement 1.

Intégration de l'apprentissage auto-supervisé à la synthèse vidéo non supervisée via un score de restauration. | Articles de recherche récents | HyperAI