HyperAIHyperAI
il y a 2 mois

Réseau encodeur-décodeur contextuel pour la prédiction de la saillance visuelle

Alexander Kroner; Mario Senden; Kurt Driessens; Rainer Goebel
Réseau encodeur-décodeur contextuel pour la prédiction de la saillance visuelle
Résumé

La prédiction des régions saillantes dans les images naturelles nécessite la détection des objets présents dans une scène. Pour développer des représentations robustes pour cette tâche complexe, il est essentiel d'extraire et d'enrichir des caractéristiques visuelles de haut niveau à différentes échelles spatiales avec des informations contextuelles. Cependant, les modèles existants visant à expliquer les cartes de fixation humaine ne prennent pas explicitement en compte un tel mécanisme. Nous proposons ici une approche basée sur un réseau neuronal convolutif pré-entraîné sur une tâche de classification d'images à grande échelle. L'architecture forme une structure encodeur-décodeur et inclut un module composé de plusieurs couches convolutives à différents taux de dilatation pour capturer simultanément des caractéristiques multi-échelles. De plus, nous combinons ces représentations avec des informations globales sur la scène afin de prédire précisément la salience visuelle. Notre modèle obtient des résultats compétitifs et cohérents selon plusieurs métriques d'évaluation sur deux benchmarks publics de salience, et nous démontrons l'efficacité de notre approche sur cinq jeux de données et des exemples sélectionnés. Comparé aux approches de pointe, notre réseau repose sur un squelette léger pour la classification d'images, ce qui en fait un choix approprié pour les applications disposant de ressources computationnelles limitées, comme les systèmes robotiques (virtuels), afin d'estimer les fixations humaines dans des scènes naturelles complexes.