HyperAIHyperAI

Command Palette

Search for a command to run...

DeepVS : une approche de prédiction de salience vidéo fondée sur l'apprentissage profond

Minglang Qiao Mai Xu Zulin Wang Tie Liu Lai Jiang

Résumé

Dans cet article, nous proposons une nouvelle méthode de prédiction de la saliency vidéo basée sur le deep learning, nommée DeepVS. Plus précisément, nous avons établi une grande base de données d’œil-tracking vidéo (LEDOV), comprenant les points de fixation de 32 sujets sur 538 vidéos. À partir de LEDOV, nous constatons que l’attention humaine est davantage attirée par les objets, en particulier les objets en mouvement ou les parties mobiles des objets. Par conséquent, nous développons un réseau de neurones convolutifs objet-mouvement (OM-CNN) pour prédire la saliency intra-image dans DeepVS, composé de deux sous-réseaux : celui de « objectness » et celui du mouvement. Dans OM-CNN, nous proposons un masque inter-réseau et une normalisation hiérarchique des caractéristiques afin de combiner efficacement les caractéristiques spatiales issues du sous-réseau d’objectness et les caractéristiques temporelles issues du sous-réseau de mouvement. Nous observons également, à partir de notre base de données, une corrélation temporelle dans l’attention humaine, marquée par une transition lisse de la saliency entre les cadres vidéo. Nous proposons donc un réseau de mémoire à long et court terme convolutif structuré par la saliency (SS-ConvLSTM), dont les entrées sont les caractéristiques extraites par OM-CNN. Ainsi, les cartes de saliency inter-image d’une vidéo peuvent être générées, en tenant compte à la fois de la structure de sortie avec biais central et des transitions entre cadres des cartes d’attention humaine. Enfin, les résultats expérimentaux montrent que DeepVS représente une avancée significative par rapport à l’état de l’art en prédiction de la saliency vidéo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DeepVS : une approche de prédiction de salience vidéo fondée sur l'apprentissage profond | Articles | HyperAI