Résumé de Vidéo avec des Réseaux Encodeur-Décodeur Basés sur l'Attention

Ce travail aborde le problème de la résumation supervisée des vidéos en le formulant comme un problème d'apprentissage séquence-à-séquence, où l'entrée est une séquence de trames vidéo originales et la sortie est une séquence de trames clés. Notre idée principale est d'apprendre un réseau de résumation profond avec un mécanisme d'attention pour imiter la manière dont les humains sélectionnent les trames clés. À cette fin, nous proposons un nouveau cadre de résumation vidéo nommé Réseaux encodeur-décodeur attentifs pour la résumation vidéo (AVS), dans lequel l'encodeur utilise une Mémoire à court et long terme bidirectionnelle (BiLSTM) pour coder les informations contextuelles parmi les trames vidéo d'entrée. Quant au décodeur, deux réseaux LSTM basés sur l'attention sont explorés en utilisant respectivement des fonctions objectif additives et multiplicatives. De nombreuses expériences ont été menées sur trois ensembles de données de référence pour la résumation vidéo, à savoir SumMe et TVSum. Les résultats démontrent la supériorité des approches basées sur l'AVS proposées par rapport aux approches de pointe, avec des améliorations notables allant de 0,8% à 3% sur deux ensembles de données respectivement.