TASED-Net : Réseau d'encodeur-décodeur spatial agrégant temporellement pour la détection de la salience vidéo

TASED-Net est une architecture de réseau neuronal entièrement convolutif en trois dimensions (3D) destinée à la détection de la salience dans les vidéos. Elle se compose de deux éléments principaux : d'abord, le réseau encodeur extrait des caractéristiques spatio-temporelles à faible résolution à partir d'une séquence d'images consécutives, puis le réseau de prédiction suivant décode ces caractéristiques spatialement tout en agrégant toutes les informations temporelles. En conséquence, une seule carte de prédiction est générée à partir d'une séquence d'images multicadres. Les cartes de salience par image peuvent être prédites en appliquant TASED-Net à une vidéo selon un mode glissant. L'approche proposée suppose que la carte de salience de toute image peut être prédite en prenant en compte un nombre limité d'images précédentes. Les résultats de nos expériences approfondies sur la détection de la salience dans les vidéos confirment cette hypothèse et montrent que notre modèle entièrement convolutif avec méthode d'agrégation temporelle est efficace. TASED-Net surpasse considérablement les approches précédentes de l'état de l'art sur les trois principaux jeux de données à grande échelle pour la détection de la salience dans les vidéos : DHF1K, Hollywood2 et UCFSports. Après une analyse qualitative des résultats, nous constatons que notre modèle est particulièrement performant pour détecter les objets mouvants saillants.