il y a 2 mois

Modélisation unifiée de la saillance dans les images et les vidéos

Richard Droste; Jianbo Jiao; J. Alison Noble

Résumé

La modélisation de la salience visuelle pour les images et les vidéos est traitée comme deux tâches indépendantes dans la littérature récente en vision par ordinateur. Bien que la modélisation de la salience des images soit un problème bien étudié et que les progrès sur des benchmarks comme SALICON et MIT300 se ralentissent, les modèles de salience vidéo ont montré des gains rapides sur le benchmark récent DHF1K. Dans ce travail, nous reculons d'un pas et nous posons la question : peut-on aborder la modélisation de la salience des images et des vidéos à travers un modèle unifié, avec un bénéfice mutuel ? Nous identifions différentes sources de décalage de domaine entre les données de salience des images et des vidéos, ainsi qu'entre différents jeux de données de salience vidéo, comme étant un défi majeur pour une modélisation conjointe efficace. Pour y remédier, nous proposons quatre nouvelles techniques d'adaptation de domaine : Priorités Adaptatives au Domaine (Domain-Adaptive Priors), Fusion Adaptative au Domaine (Domain-Adaptive Fusion), Lissage Adaptatif au Domaine (Domain-Adaptive Smoothing) et Bypass-RNN, en plus d'une formulation améliorée des priorités gaussiennes apprises. Nous intégrons ces techniques dans un réseau simple et léger de style encodeur-RNN-décodeur, appelé UNISAL, et nous l'entraînons conjointement avec des données de salience d'images et de vidéos. Nous évaluons notre méthode sur les jeux de données de salience vidéo DHF1K, Hollywood-2 et UCF-Sports, ainsi que sur les jeux de données de salience d'image SALICON et MIT300. Avec un seul ensemble de paramètres, UNISAL atteint des performances d'état de l'art sur tous les jeux de données de salience vidéo et est comparable aux méthodes d'état de l'art pour les jeux de données de salience d'image, malgré une exécution plus rapide et une taille du modèle 5 à 20 fois plus petite par rapport à toutes les méthodes profondes concurrentes. Nous fournissons des analyses rétrospectives et des études par suppression qui confirment l'importance du modèle du décalage de domaine. Le code est disponible à l'adresse https://github.com/rdroste/unisal.