Résumé Vidéo Basé sur des Clusters avec Conscience du Contexte Temporel

Dans cet article, nous présentons TAC-SUM, une nouvelle approche efficace et sans apprentissage pour la synthèse vidéo qui remédie aux limitations des modèles existants basés sur le clustering en intégrant le contexte temporel. Notre méthode divise la vidéo d'entrée en segments temporellement consécutifs, en utilisant des informations de clustering, ce qui permet d'introduire une prise de conscience temporelle dans le processus de clustering, la distinguant ainsi des méthodes précédentes de synthèse basée sur le clustering. Les clusters temporellement conscients obtenus sont ensuite utilisés pour calculer le résumé final, en appliquant des règles simples pour la sélection des images clés et l'évaluation de l'importance des images. Les résultats expérimentaux sur l'ensemble de données SumMe démontrent l'efficacité de notre approche proposée, surpassant les méthodes non supervisées existantes et atteignant des performances comparables à celles des techniques de synthèse supervisée les plus avancées. Notre code source est disponible pour consultation à l'adresse \url{https://github.com/hcmus-thesis-gulu/TAC-SUM}.