Détection de la salience RGB-D par minimisation en cascade de l'information mutuelle

Les modèles existants de détection de salience RGB-D ne favorisent pas explicitement l’apprentissage multi-modale efficace entre les données RGB et la profondeur. Dans cet article, nous introduisons un cadre d’apprentissage en cascade à plusieurs étapes basé sur la minimisation de l’information mutuelle, afin de « modéliser explicitement » les informations multi-modales entre l’image RGB et les données de profondeur. Plus précisément, nous projetons d’abord les caractéristiques de chaque modalité dans un vecteur de caractéristiques à faible dimension, puis utilisons la minimisation de l’information mutuelle comme régularisation afin de réduire la redondance entre les caractéristiques d’apparence issues de l’image RGB et les caractéristiques géométriques issues de la profondeur. Nous effectuons ensuite un apprentissage en cascade à plusieurs étapes, en imposant la contrainte de minimisation de l’information mutuelle à chaque étape du réseau. Des expériences étendues sur des jeux de données standard RGB-D démontrent l’efficacité de notre cadre. En outre, afin de stimuler le développement de ce domaine, nous proposons le plus grand jeu de données à ce jour (7 fois plus volumineux que NJU2K), comprenant 15 625 paires d’images annotées avec des polygones, des croquis, des objets, des instances et des niveaux de classement de haute qualité. Sur la base de ces étiquettes riches, nous avons également construit quatre nouveaux benchmarks avec des baselines solides, et observé plusieurs phénomènes intéressants, pouvant inspirer la conception future de modèles. Le code source et le jeu de données sont disponibles à l’adresse : « https://github.com/JingZhang617/cascaded_rgbd_sod ».