Résumé Supervisé de Vidéo par l'Intermédiaire de Multiples Ensembles de Caractéristiques avec une Attention Parallèle

L'attribution de scores d'importance à des images ou (courts) segments spécifiques dans une vidéo est cruciale pour la synthèse, mais également une tâche difficile. Les travaux précédents n'utilisent qu'une seule source de caractéristiques visuelles. Dans cet article, nous proposons une nouvelle architecture de modèle qui combine trois ensembles de caractéristiques pour le contenu visuel et le mouvement afin de prédire les scores d'importance. L'architecture proposée utilise un mécanisme d'attention avant de fusionner les caractéristiques de mouvement et celles représentant le contenu visuel (statique), c'est-à-dire dérivées d'un modèle de classification d'images. Des évaluations expérimentales approfondies sont rapportées pour deux jeux de données bien connus, SumMe et TVSum. Dans ce cadre, nous identifions des problèmes méthodologiques concernant l'utilisation de ces jeux de données par les travaux précédents, et présentons un schéma d'évaluation équitable avec des divisions appropriées des données qui peuvent être utilisées dans les futures recherches. En utilisant des caractéristiques statiques et dynamiques avec un mécanisme d'attention parallèle, nous améliorons les résultats de l'état de l'art pour SumMe, tout en restant au niveau de l'état de l'art pour l'autre jeu de données.