DeepVS : une approche de prédiction de salience vidéo fondée sur l'apprentissage profond

Dans cet article, nous proposons une nouvelle méthode de prédiction de la saliency vidéo basée sur le deep learning, nommée DeepVS. Plus précisément, nous avons établi une grande base de données d’œil-tracking vidéo (LEDOV), comprenant les points de fixation de 32 sujets sur 538 vidéos. À partir de LEDOV, nous constatons que l’attention humaine est davantage attirée par les objets, en particulier les objets en mouvement ou les parties mobiles des objets. Par conséquent, nous développons un réseau de neurones convolutifs objet-mouvement (OM-CNN) pour prédire la saliency intra-image dans DeepVS, composé de deux sous-réseaux : celui de « objectness » et celui du mouvement. Dans OM-CNN, nous proposons un masque inter-réseau et une normalisation hiérarchique des caractéristiques afin de combiner efficacement les caractéristiques spatiales issues du sous-réseau d’objectness et les caractéristiques temporelles issues du sous-réseau de mouvement. Nous observons également, à partir de notre base de données, une corrélation temporelle dans l’attention humaine, marquée par une transition lisse de la saliency entre les cadres vidéo. Nous proposons donc un réseau de mémoire à long et court terme convolutif structuré par la saliency (SS-ConvLSTM), dont les entrées sont les caractéristiques extraites par OM-CNN. Ainsi, les cartes de saliency inter-image d’une vidéo peuvent être générées, en tenant compte à la fois de la structure de sortie avec biais central et des transitions entre cadres des cartes d’attention humaine. Enfin, les résultats expérimentaux montrent que DeepVS représente une avancée significative par rapport à l’état de l’art en prédiction de la saliency vidéo.