Réseau de mémoire à attention structurée pour l'estimation de profondeur monoculaire

L’estimation de profondeur monoscopique est une tâche difficile visant à prédire une carte de profondeur correspondante à partir d’une seule image RGB. Les modèles récents basés sur l’apprentissage profond ont été proposés pour prédire la profondeur à partir d’une image en apprenant l’alignement des caractéristiques profondes entre le domaine image RGB et le domaine profondeur. Dans cet article, nous présentons une nouvelle approche, nommée Réseau à Mémoire Axée sur la Structure (Structure-Attentioned Memory Network), pour transférer plus efficacement les caractéristiques de domaine dans le cadre de l’estimation de profondeur monoscopique, en tenant compte des régularités structurelles communes (par exemple, motifs répétitifs, surfaces planes, symétries) présentes dans l’adaptation de domaine. À cette fin, nous introduisons un nouveau module, appelé Mémoire Orientée vers la Structure (Structure-Oriented Memory, SOM), destiné à apprendre et à mémoriser les informations spécifiques aux structures entre le domaine image RGB et le domaine profondeur. Plus précisément, dans le module SOM, nous proposons une unité appelée Banque Mémorable de Filtres (Memorable Bank of Filters, MBF) pour apprendre un ensemble de filtres qui mémorisent les motifs résiduels image-profondeur sensibles aux structures, ainsi qu’une unité Contrôleur Guidé par l’Attention (Attention Guided Controller, AGC) pour piloter la sélection des filtres dans la MBF en fonction des requêtes issues des caractéristiques de l’image. Étant donné une caractéristique d’image requête, le module SOM entraîné est capable de sélectionner de manière adaptative les filtres personnalisés optimaux pour le transfert de caractéristiques entre domaines, en assurant une disparité structurelle optimale entre l’image et la profondeur. En résumé, nous abordons de manière novatrice le défi de l’adaptation de domaine spécifique aux structures en proposant un réseau end-to-end multi-échelle mémorable pour l’estimation de profondeur monoscopique. Les expérimentations montrent que notre modèle proposé atteint des performances supérieures par rapport aux approches supervisées existantes pour l’estimation de profondeur monoscopique sur les défis KITTI et NYU Depth V2.