il y a 16 jours

SemAttNet : Vers une complétion de profondeur guidée par une attention sensible au sens

Danish Nazir, Marcus Liwicki, Didier Stricker, Muhammad Zeshan Afzal

Résumé

La complétion de profondeur consiste à reconstruire une carte de profondeur dense à partir d’une carte éparses et d’une image RGB. Les approches récentes se concentrent sur l’utilisation des images couleur comme images de guidance afin de restaurer la profondeur aux pixels invalides. Toutefois, les images couleur seules ne suffisent pas à fournir une compréhension sémantique adéquate de la scène. En conséquence, la tâche de complétion de profondeur est affectée par des changements soudains d’éclairage dans les images RGB (par exemple, les ombres). Dans cet article, nous proposons un nouveau noyau à trois branches comprenant une branche guidée par la couleur, une branche guidée par la sémantique et une branche guidée par la profondeur. Plus précisément, la branche guidée par la couleur prend en entrée une carte de profondeur éparses et une image RGB, et génère une profondeur colorée qui inclut des indices colorés (par exemple, les contours des objets) de la scène. La carte de profondeur dense prédite par la branche guidée par la couleur, combinée à l’image sémantique et à la carte de profondeur éparses, est transmise en entrée à la branche guidée par la sémantique afin d’estimer une profondeur sémantique. La branche guidée par la profondeur prend en entrée les profondeurs éparses, colorées et sémantiques pour générer la carte de profondeur dense finale. La profondeur colorée, la profondeur sémantique et la profondeur guidée sont ensuite fusionnées de manière adaptative pour produire la sortie du noyau à trois branches proposé. Par ailleurs, nous proposons également d’appliquer un bloc de fusion à attention multi-modale consciente de la sémantique (SAMMAFB) afin de fusionner les caractéristiques entre les trois branches. Nous utilisons également CSPN++ avec des convolutions atrous pour affiner la carte de profondeur dense produite par notre noyau à trois branches. Des expériences étendues montrent que notre modèle atteint des performances de pointe sur le benchmark de complétion de profondeur KITTI au moment de la soumission.