UC-Net : Détection de la saliété RGB-D inspirée par l'incertitude à l'aide d'autoencodeurs variationnels conditionnels

Dans cet article, nous proposons le premier cadre (UCNet) qui exploite l’incertitude pour la détection de la salience à partir de données RGB-D en apprenant directement à partir du processus d’étiquetage des données. Les méthodes existantes de détection de la salience RGB-D traitent cette tâche comme un problème d’estimation ponctuelle, produisant une carte de salience unique via une chaîne d’apprentissage déterministe. Inspirés par le processus d’étiquetage humain de la salience, nous proposons un réseau de détection de la salience RGB-D probabiliste basé sur des autoencodeurs variationnels conditionnels, afin de modéliser l’incertitude des annotations humaines et de générer plusieurs cartes de salience pour chaque image d’entrée en échantillonnant l’espace latent. Grâce au processus de consensus de salience proposé, nous parvenons à produire une carte de salience précise à partir de ces multiples prédictions. Des évaluations quantitatives et qualitatives effectuées sur six jeux de données de référence exigeants, comparées à 18 algorithmes concurrents, démontrent l’efficacité de notre approche dans l’apprentissage de la distribution des cartes de salience, établissant ainsi un nouveau record d’état de l’art en détection de la salience RGB-D.