Apprentissage de caractéristiques discriminantes pour la résumation vidéo non supervisée

Dans cet article, nous abordons le problème de la synthèse vidéo non supervisée qui consiste à extraire automatiquement les plans clés d'une vidéo d'entrée. Plus précisément, nous traitons deux questions cruciales basées sur nos observations empiriques : (i) L'apprentissage inefficace des caractéristiques en raison de distributions plates des scores d'importance de sortie pour chaque image, et (ii) les difficultés de formation lorsqu'on traite des vidéos de longue durée. Pour atténuer le premier problème, nous proposons un terme de perte de régularisation simple mais efficace appelé perte de variance. La perte de variance proposée permet à un réseau de prédire des scores de sortie pour chaque image avec une grande disparité, ce qui favorise l'apprentissage efficace des caractéristiques et améliore considérablement les performances du modèle. Concernant le deuxième problème, nous concevons un nouveau réseau à double flux nommé Chunk and Stride Network (CSNet), qui utilise une vue temporelle locale (chunk) et globale (stride) sur les caractéristiques vidéo. Notre CSNet fournit de meilleurs résultats de synthèse pour les vidéos de longue durée par rapport aux méthodes existantes. De plus, nous introduisons un mécanisme d'attention pour gérer les informations dynamiques dans les vidéos. Nous démontrons l'efficacité des méthodes proposées en menant des études ablatives approfondies et montrons que notre modèle final atteint de nouveaux résultats d'état de l'art sur deux jeux de données de référence.