Résumé de vidéos en utilisant une attention concentrée et en tenant compte de l'unicité et de la diversité des cadres vidéo

Dans ce travail, nous présentons une nouvelle méthode pour la synthèse vidéo non supervisée. Pour surmonter les limitations des approches existantes de synthèse vidéo non supervisée, notamment la stabilité instable de l'entraînement des architectures Générateur-Discriminateur, l'utilisation de réseaux récurrents (RNN) pour modéliser les dépendances à longue portée entre les trames vidéo, ainsi que la difficulté à paralléliser l'entraînement des architectures basées sur les RNN, la méthode proposée repose exclusivement sur un mécanisme d'attention auto-attentionnelle afin d'estimer l'importance des trames vidéo. Contrairement à une modélisation simple des dépendances entre trames basée sur une attention globale, notre méthode intègre un mécanisme d'attention concentrée capable de se focaliser sur des blocs non chevauchants situés sur la diagonale principale de la matrice d'attention, tout en enrichissant l'information existante grâce à l'extraction et à l'exploitation de connaissances relatives à l'unicité et à la diversité des trames associées. Ainsi, notre méthode permet d'obtenir des estimations plus précises de la signification des différentes parties de la vidéo, tout en réduisant de manière drastique le nombre de paramètres à apprendre. Des évaluations expérimentales menées sur deux jeux de données standardisées (SumMe et TVSum) montrent la compétitivité de la méthode proposée par rapport aux approches les plus avancées de synthèse non supervisée, et démontrent sa capacité à produire des résumés vidéo très proches des préférences humaines. Une étude d'ablation portant sur les composants introduits — à savoir l'utilisation conjointe de l'attention concentrée et des estimations basées sur l'attention pour l'unicité et la diversité des trames — met en évidence leur contribution respective à la performance globale de la synthèse.