HyperAIHyperAI

Command Palette

Search for a command to run...

Modélisation unifiée de la saillance dans les images et les vidéos

Richard Droste Jianbo Jiao J. Alison Noble

Résumé

La modélisation de la salience visuelle pour les images et les vidéos est traitée comme deux tâches indépendantes dans la littérature récente en vision par ordinateur. Bien que la modélisation de la salience des images soit un problème bien étudié et que les progrès sur des benchmarks comme SALICON et MIT300 se ralentissent, les modèles de salience vidéo ont montré des gains rapides sur le benchmark récent DHF1K. Dans ce travail, nous reculons d'un pas et nous posons la question : peut-on aborder la modélisation de la salience des images et des vidéos à travers un modèle unifié, avec un bénéfice mutuel ? Nous identifions différentes sources de décalage de domaine entre les données de salience des images et des vidéos, ainsi qu'entre différents jeux de données de salience vidéo, comme étant un défi majeur pour une modélisation conjointe efficace. Pour y remédier, nous proposons quatre nouvelles techniques d'adaptation de domaine : Priorités Adaptatives au Domaine (Domain-Adaptive Priors), Fusion Adaptative au Domaine (Domain-Adaptive Fusion), Lissage Adaptatif au Domaine (Domain-Adaptive Smoothing) et Bypass-RNN, en plus d'une formulation améliorée des priorités gaussiennes apprises. Nous intégrons ces techniques dans un réseau simple et léger de style encodeur-RNN-décodeur, appelé UNISAL, et nous l'entraînons conjointement avec des données de salience d'images et de vidéos. Nous évaluons notre méthode sur les jeux de données de salience vidéo DHF1K, Hollywood-2 et UCF-Sports, ainsi que sur les jeux de données de salience d'image SALICON et MIT300. Avec un seul ensemble de paramètres, UNISAL atteint des performances d'état de l'art sur tous les jeux de données de salience vidéo et est comparable aux méthodes d'état de l'art pour les jeux de données de salience d'image, malgré une exécution plus rapide et une taille du modèle 5 à 20 fois plus petite par rapport à toutes les méthodes profondes concurrentes. Nous fournissons des analyses rétrospectives et des études par suppression qui confirment l'importance du modèle du décalage de domaine. Le code est disponible à l'adresse https://github.com/rdroste/unisal.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modélisation unifiée de la saillance dans les images et les vidéos | Articles | HyperAI