HyperAIHyperAI
il y a 2 mois

Réexamen de la Salience Vidéo : Une Grande Échelle de Benchmark et un Nouveau Modèle

Wenguan Wang; Jianbing Shen; Fang Guo; Ming-Ming Cheng; Ali Borji
Réexamen de la Salience Vidéo : Une Grande Échelle de Benchmark et un Nouveau Modèle
Résumé

Dans cette étude, nous contribuons à la recherche sur la salience vidéo de deux manières. Premièrement, nous introduisons un nouveau benchmark pour prédire les mouvements oculaires humains lors de la libre exploration de scènes dynamiques, une nécessité longtemps réclamée dans ce domaine. Notre jeu de données, nommé DHF1K (Dynamic Human Fixation), comprend 1 000 séquences vidéo de haute qualité soigneusement sélectionnées couvrant une large gamme de scènes, de mouvements, de types d'objets et de complexité du fond. Les jeux de données existants en salience vidéo manquent de variété et de généralité des scènes dynamiques courantes et ne parviennent pas à couvrir des situations difficiles dans des environnements non contraints. En revanche, DHF1K représente une avancée significative en termes d'évolutivité, de diversité et de difficulté, et est susceptible d'accélérer le développement des modèles de salience vidéo. Deuxièmement, nous proposons un nouveau modèle de salience vidéo qui améliore l'architecture réseau CNN-LSTM avec un mécanisme d'attention afin d'activer l'apprentissage rapide et intégré de la salience. Le mécanisme d'attention encode explicitement les informations de salience statique, permettant ainsi au LSTM (Long Short-Term Memory) de se concentrer sur l'apprentissage d'une représentation temporelle plus flexible de la salience entre les images successives. Cette conception exploite pleinement les grands jeux de données existants sur les fixations statiques, évite le surapprentissage et améliore considérablement l'efficacité de l'entraînement et les performances en test. Nous examinons en détail les performances de notre modèle par rapport aux modèles actuels les plus performants sur trois grands jeux de données (à savoir DHF1K, Hollywood2, UCF sports). Les résultats expérimentaux sur plus de 1 200 vidéos tests contenant 400 000 images montrent que notre modèle surpassent ses concurrents.

Réexamen de la Salience Vidéo : Une Grande Échelle de Benchmark et un Nouveau Modèle | Articles de recherche récents | HyperAI